Large Language Model Unlearning

14 October 2023

Papers citing "Large Language Model Unlearning"

33 / 83 papers shown

Title
REVS: Unlearning Sensitive Information in Language Models via Rank Editing in the Vocabulary Space Tomer Ashuach Martin Tutek Yonatan Belinkov KELM MU 53 4 0 13 Jun 2024
Reversing the Forget-Retain Objectives: An Efficient LLM Unlearning Framework from Logit Difference Jiabao Ji Yujian Liu Yang Zhang Gaowen Liu Ramana Rao Kompella Sijia Liu Shiyu Chang KELM MU 29 21 0 12 Jun 2024
Decoupling the Class Label and the Target Concept in Machine Unlearning Jianing Zhu Bo Han Jiangchao Yao Jianliang Xu Gang Niu Masashi Sugiyama CLL MU 24 4 0 12 Jun 2024
Deconstructing The Ethics of Large Language Models from Long-standing Issues to New-emerging Dilemmas Chengyuan Deng Yiqun Duan Xin Jin Heng Chang Yijun Tian ... Kuofeng Gao Sihong He Jun Zhuang Lu Cheng Haohan Wang AILaw 38 16 0 08 Jun 2024
Adversarial Tuning: Defending Against Jailbreak Attacks for LLMs Fan Liu Zhao Xu Hao Liu AAML 43 9 0 07 Jun 2024
Federated TrustChain: Blockchain-Enhanced LLM Training and Unlearning Xuhan Zuo Minghao Wang Tianqing Zhu Lefeng Zhang Dayong Ye Shui Yu Wanlei Zhou MU 24 4 0 06 Jun 2024
Cross-Modal Safety Alignment: Is textual unlearning all you need? Trishna Chakraborty Erfan Shayegani Zikui Cai Nael B. Abu-Ghazaleh M. Salman Asif Yue Dong A. Roy-Chowdhury Chengyu Song 39 15 0 27 May 2024
Large Scale Knowledge Washing Yu-Xiang Wang Ruihan Wu Zexue He X. Chen Julian McAuley MU KELM 49 4 0 26 May 2024
Class Machine Unlearning for Complex Data via Concepts Inference and Data Poisoning Wenhan Chang Tianqing Zhu Heng Xu Wenjian Liu Wanlei Zhou MU 31 3 0 24 May 2024
Machine Unlearning in Large Language Models Saaketh Koundinya Gundavarapu Shreya Agarwal Arushi Arora Chandana Thimmalapura Jagadeeshaiah MU 11 0 0 24 May 2024
Ferrari: Federated Feature Unlearning via Optimizing Feature Sensitivity Hanlin Gu W. Ong Chee Seng Chan Lixin Fan MU 23 7 0 23 May 2024
Single Image Unlearning: Efficient Machine Unlearning in Multimodal Large Language Models Jiaqi Li Qianshan Wei Chuanyi Zhang Guilin Qi Miaozeng Du Yongrui Chen Sheng Bi Fan Liu VLM MU 67 12 0 21 May 2024
Data Selection for Transfer Unlearning N. Sepahvand Vincent Dumoulin Eleni Triantafillou Gintare Karolina Dziugaite MU 31 4 0 16 May 2024
Building a Large Japanese Web Corpus for Large Language Models Naoaki Okazaki Kakeru Hattori Hirai Shota Hiroki Iida Masanari Ohi Kazuki Fujii Taishi Nakamura Mengsay Loem Rio Yokota Sakae Mizuki 47 6 0 27 Apr 2024
Protecting Your LLMs with Information Bottleneck Zichuan Liu Zefan Wang Linjie Xu Jinyu Wang Lei Song Tianchun Wang Chunlin Chen Wei Cheng Jiang Bian KELM AAML 45 15 0 22 Apr 2024
Uncovering Safety Risks of Large Language Models through Concept Activation Vector Zhihao Xu Ruixuan Huang Changyu Chen Shuai Wang Xiting Wang LLMSV 32 10 0 18 Apr 2024
Negative Preference Optimization: From Catastrophic Collapse to Effective Unlearning Ruiqi Zhang Licong Lin Yu Bai Song Mei MU 56 124 0 08 Apr 2024
Unlearning Backdoor Threats: Enhancing Backdoor Defense in Multimodal Contrastive Learning via Local Token Unlearning Siyuan Liang Kuanrong Liu Jiajun Gong Jiawei Liang Yuan Xun Ee-Chien Chang Xiaochun Cao AAML MU 24 12 0 24 Mar 2024
The Frontier of Data Erasure: Machine Unlearning for Large Language Models Youyang Qu Ming Ding Nan Sun Kanchana Thilakarathna Tianqing Zhu Dusit Niyato MU 28 12 0 23 Mar 2024
Threats, Attacks, and Defenses in Machine Unlearning: A Survey Ziyao Liu Huanyi Ye Chen Chen Yongsen Zheng K. Lam AAML MU 29 28 0 20 Mar 2024
Challenging Forgets: Unveiling the Worst-Case Forget Sets in Machine Unlearning Chongyu Fan Jiancheng Liu Alfred Hero Sijia Liu MU 22 28 0 12 Mar 2024
Towards Efficient and Effective Unlearning of Large Language Models for Recommendation Hangyu Wang Jianghao Lin Bo Chen Yang Yang Ruiming Tang Weinan Zhang Yong Yu MU 31 9 0 06 Mar 2024
The WMDP Benchmark: Measuring and Reducing Malicious Use With Unlearning Nathaniel Li Alexander Pan Anjali Gopal Summer Yue Daniel Berrios ... Yan Shoshitaishvili Jimmy Ba K. Esvelt Alexandr Wang Dan Hendrycks ELM 43 139 0 05 Mar 2024
Corrective Machine Unlearning Shashwat Goel Ameya Prabhu Philip H. S. Torr Ponnurangam Kumaraguru Amartya Sanyal OnRL 27 13 0 21 Feb 2024
Rethinking Machine Unlearning for Large Language Models Sijia Liu Yuanshun Yao Jinghan Jia Stephen Casper Nathalie Baracaldo ... Hang Li Kush R. Varshney Mohit Bansal Sanmi Koyejo Yang Liu AILaw MU 63 79 0 13 Feb 2024
Large Language Models as Agents in Two-Player Games Yang Liu Peng Sun Hang Li LLMAG 32 4 0 12 Feb 2024
Copyright Protection in Generative AI: A Technical Perspective Jie Ren Han Xu Pengfei He Yingqian Cui Shenglai Zeng ... Hongzhi Wen Jiayuan Ding Hui Liu Yi Chang Jiliang Tang DeLMO 16 30 0 04 Feb 2024
Machine Unlearning in Large Language Models Kongyang Chen Zixin Wang Bing Mi Waixi Liu Shaowei Wang Xiaojun Ren Jiaxing Shen MU 16 10 0 03 Feb 2024
Unlearnable Algorithms for In-context Learning Andrei Muresanu Anvith Thudi Michael R. Zhang Nicolas Papernot MU 15 10 0 01 Feb 2024
Knowledge Unlearning for LLMs: Tasks, Methods, and Challenges Nianwen Si Hao Zhang Heyu Chang Wenlin Zhang Dan Qu Weiqiang Zhang KELM MU 70 26 0 27 Nov 2023
Who's Harry Potter? Approximate Unlearning in LLMs Ronen Eldan M. Russinovich MU MoMe 101 171 0 03 Oct 2023
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 303 11,730 0 04 Mar 2022
Extracting Training Data from Large Language Models Nicholas Carlini Florian Tramèr Eric Wallace Matthew Jagielski Ariel Herbert-Voss ... Tom B. Brown D. Song Ulfar Erlingsson Alina Oprea Colin Raffel MLAU SILM 267 1,798 0 14 Dec 2020