Large Language Model Unlearning

14 October 2023

Papers citing "Large Language Model Unlearning"

50 / 83 papers shown

Title
Adaptive Helpfulness-Harmlessness Alignment with Preference Vectors Ren-Wei Liang Chin-Ting Hsu Chan-Hung Yu Saransh Agrawal Shih-Cheng Huang Shang-Tse Chen Kuan-Hao Huang Shao-Hua Sun 76 0 0 27 Apr 2025
Verifying Robust Unlearning: Probing Residual Knowledge in Unlearned Models Hao Xuan Xingyu Li AAML MU 43 0 0 21 Apr 2025
A mean teacher algorithm for unlearning of language models Yegor Klochkov MU 74 0 0 18 Apr 2025
DP2Unlearning: An Efficient and Guaranteed Unlearning Framework for LLMs Tamim Al Mahmud N. Jebreel Josep Domingo-Ferrer David Sánchez MU 25 0 0 18 Apr 2025
GRAIL: Gradient-Based Adaptive Unlearning for Privacy and Copyright in LLMs Kun-Woo Kim Ji-Hoon Park Ju-Min Han Seong-Whan Lee MU PILM 62 0 0 17 Apr 2025
ForgetMe: Evaluating Selective Forgetting in Generative Models Zhenyu Yu Mohd Yamani Inda Idris Pei Wang DiffM MU 32 0 0 17 Apr 2025
Teaching Large Language Models to Reason through Learning and Forgetting Tianwei Ni Allen Nie Sapana Chaudhary Yao Liu Huzefa Rangwala Rasool Fakoor ReLM CLL LRM 50 0 0 15 Apr 2025
Not All Data Are Unlearned Equally Aravind Krishnan Siva Reddy Marius Mosbach MU 53 0 0 07 Apr 2025
SUV: Scalable Large Language Model Copyright Compliance with Regularized Selective Unlearning Tianyang Xu Xiaoze Liu Feijie Wu Xiaoqian Wang Jing Gao MU 54 0 0 29 Mar 2025
SAUCE: Selective Concept Unlearning in Vision-Language Models with Sparse Autoencoders Qing Li Jiahui Geng Derui Zhu Fengyu Cai Chenyang Lyu Fakhri Karray MU 41 0 0 16 Mar 2025
Safety Mirage: How Spurious Correlations Undermine VLM Safety Fine-tuning Yiwei Chen Yuguang Yao Yihua Zhang Bingquan Shen Gaowen Liu Sijia Liu AAML MU 58 1 0 14 Mar 2025
Learning to Unlearn while Retaining: Combating Gradient Conflicts in Machine Unlearning Gaurav Patel Qiang Qiu MU 60 1 0 08 Mar 2025
Rethinking LLM Unlearning Objectives: A Gradient Perspective and Go Beyond Qizhou Wang Jin Peng Zhou Zhanke Zhou Saebyeol Shin Bo Han Kilian Q. Weinberger AILaw ELM MU 63 3 0 26 Feb 2025
Proactive Privacy Amnesia for Large Language Models: Safeguarding PII with Negligible Impact on Model Utility Martin Kuo Jingyang Zhang Jianyi Zhang Minxue Tang Louis DiValentin ... William Chen Amin Hass Tianlong Chen Y. Chen H. Li MU KELM 37 2 0 24 Feb 2025
UPCORE: Utility-Preserving Coreset Selection for Balanced Unlearning Vaidehi Patil Elias Stengel-Eskin Mohit Bansal MU CLL 73 2 0 20 Feb 2025
LUNAR: LLM Unlearning via Neural Activation Redirection William F. Shen Xinchi Qiu Meghdad Kurmanji Alex Iacob Lorenzo Sani Yihong Chen Nicola Cancedda Nicholas D. Lane MU 49 1 0 11 Feb 2025
Leveraging Fine-Tuned Retrieval-Augmented Generation with Long-Context Support: For 3GPP Standards Omar Erak Nouf Alabbasi Omar Alhussein Ismail Lotfi Amr Hussein Sami Muhaidat Merouane Debbah RALM 76 5 0 17 Jan 2025
Direct Unlearning Optimization for Robust and Safe Text-to-Image Models Yong-Hyun Park Sangdoo Yun Jin-Hwa Kim Junho Kim Geonhui Jang Yonghyun Jeong Junghyo Jo Gayoung Lee 73 12 0 17 Jan 2025
Large Language Model Federated Learning with Blockchain and Unlearning for Cross-Organizational Collaboration Xuhan Zuo Minghao Wang Tianqing Zhu Shui Yu Wanlei Zhou MU 64 2 0 18 Dec 2024
Detecting Discrepancies Between AI-Generated and Natural Images Using Uncertainty Jun Nie Yonggang Zhang Tongliang Liu Y. Cheung Bo Han Xinmei Tian UQCV 83 0 0 08 Dec 2024
Classifier-free guidance in LLMs Safety Roman Smirnov MU 59 1 0 08 Dec 2024
Benchmarking Vision Language Model Unlearning via Fictitious Facial Identity Dataset Yingzi Ma Jiongxiao Wang Fei-Yue Wang Siyuan Ma Jiazhao Li ... B. Li Yejin Choi M. Chen Chaowei Xiao Chaowei Xiao MU 47 6 0 05 Nov 2024
TeleOracle: Fine-Tuned Retrieval-Augmented Generation with Long-Context Support for Network Nouf Alabbasi Omar Erak Omar Alhussein Ismail Lotfi Sami Muhaidat Merouane Debbah RALM 64 0 0 04 Nov 2024
Attribute-to-Delete: Machine Unlearning via Datamodel Matching Kristian Georgiev Roy Rinberg Sung Min Park Shivam Garg Andrew Ilyas Aleksander Madry Seth Neel MU 38 3 0 30 Oct 2024
WAGLE: Strategic Weight Attribution for Effective and Modular Unlearning in Large Language Models Jinghan Jia Jiancheng Liu Yihua Zhang Parikshit Ram Nathalie Baracaldo Sijia Liu MU 35 2 0 23 Oct 2024
Catastrophic Failure of LLM Unlearning via Quantization Zhiwei Zhang Fali Wang Xiaomin Li Zongyu Wu Xianfeng Tang Hui Liu Qi He Wenpeng Yin Suhang Wang MU 29 5 0 21 Oct 2024
When Machine Unlearning Meets Retrieval-Augmented Generation (RAG): Keep Secret or Forget Knowledge? Shang Wang Tianqing Zhu Dayong Ye Wanlei Zhou MU 35 2 0 20 Oct 2024
Meta-Unlearning on Diffusion Models: Preventing Relearning Unlearned Concepts Hongcheng Gao Tianyu Pang Chao Du Taihang Hu Zhijie Deng Min-Bin Lin DiffM 38 6 0 16 Oct 2024
LLM Unlearning via Loss Adjustment with Only Forget Data Yaxuan Wang Jiaheng Wei Chris Liu Jinlong Pang Q. Liu A. Shah Yujia Bao Yang Liu Wei Wei KELM MU 32 6 0 14 Oct 2024
JAILJUDGE: A Comprehensive Jailbreak Judge Benchmark with Multi-Agent Enhanced Explanation Evaluation Framework Fan Liu Yue Feng Zhao Xu Lixin Su Xinyu Ma Dawei Yin Hao Liu ELM 22 7 0 11 Oct 2024
A Closer Look at Machine Unlearning for Large Language Models Xiaojian Yuan Tianyu Pang Chao Du Kejiang Chen Weiming Zhang Min-Bin Lin MU 36 5 0 10 Oct 2024
Simplicity Prevails: Rethinking Negative Preference Optimization for LLM Unlearning Chongyu Fan Jiancheng Liu Licong Lin Jinghan Jia Ruiqi Zhang Song Mei Sijia Liu MU 41 15 0 09 Oct 2024
Erasing Conceptual Knowledge from Language Models Rohit Gandikota Sheridan Feucht Samuel Marks David Bau KELM ELM MU 40 5 0 03 Oct 2024
Undesirable Memorization in Large Language Models: A Survey Ali Satvaty Suzan Verberne Fatih Turkmen ELM PILM 67 7 0 03 Oct 2024
Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats Kuanrong Liu Siyuan Liang Jiawei Liang Pengwen Dai Xiaochun Cao MU AAML 24 1 0 29 Sep 2024
An Adversarial Perspective on Machine Unlearning for AI Safety Jakub Łucki Boyi Wei Yangsibo Huang Peter Henderson F. Tramèr Javier Rando MU AAML 71 31 0 26 Sep 2024
LLM Surgery: Efficient Knowledge Unlearning and Editing in Large Language Models Akshaj Kumar Veldanda Shi-Xiong Zhang Anirban Das Supriyo Chakraborty Stephen Rawls Sambit Sahu Milind Naphade KELM MU 20 0 0 19 Sep 2024
Recent Advances in Attack and Defense Approaches of Large Language Models Jing Cui Yishi Xu Zhewei Huang Shuchang Zhou Jianbin Jiao Junge Zhang PILM AAML 47 1 0 05 Sep 2024
Towards Reliable Medical Question Answering: Techniques and Challenges in Mitigating Hallucinations in Language Models Duy Khoa Pham Bao Quoc Vo LM&MA HILM 26 3 0 25 Aug 2024
WPN: An Unlearning Method Based on N-pair Contrastive Learning in Language Models Guitao Chen Yunshen Wang Hongye Sun Guang Chen MU 19 1 0 18 Aug 2024
On the Limitations and Prospects of Machine Unlearning for Generative AI Shiji Zhou Lianzhe Wang Jiangnan Ye Yongliang Wu Heng Chang MU 41 5 0 01 Aug 2024
Tamper-Resistant Safeguards for Open-Weight LLMs Rishub Tamirisa Bhrugu Bharathi Long Phan Andy Zhou Alice Gatti ... Andy Zou Dawn Song Bo Li Dan Hendrycks Mantas Mazeika AAML MU 47 36 0 01 Aug 2024
Learn while Unlearn: An Iterative Unlearning Framework for Generative Language Models Haoyu Tang Ye Liu Xukai Liu Xukai Liu Yanghai Zhang Kai Zhang Xiaofang Zhou Enhong Chen MU 57 3 0 25 Jul 2024
MUSE: Machine Unlearning Six-Way Evaluation for Language Models Weijia Shi Jaechan Lee Yangsibo Huang Sadhika Malladi Jieyu Zhao Ari Holtzman Daogao Liu Luke Zettlemoyer Noah A. Smith Chiyuan Zhang MU ELM 40 44 0 08 Jul 2024
UnUnlearning: Unlearning is not sufficient for content regulation in advanced generative AI Ilia Shumailov Jamie Hayes Eleni Triantafillou Guillermo Ortiz-Jimenez Nicolas Papernot Matthew Jagielski Itay Yona Heidi Howard Eugene Bagdasaryan MU 18 19 0 27 Jun 2024
Autonomous Agents for Collaborative Task under Information Asymmetry Wei Liu Chenxi Wang Yifei Wang Zihao Xie Rennai Qiu Yufan Dang Zhuoyun Du Weize Chen Cheng Yang Chen Qian LLMAG 36 4 0 21 Jun 2024
Data-Centric AI in the Age of Large Language Models Xinyi Xu Zhaoxuan Wu Rui Qiao Arun Verma Yao Shu ... Xiaoqiang Lin Wenyang Hu Zhongxiang Dai Pang Wei Koh Bryan Kian Hsiang Low ALM 40 2 0 20 Jun 2024
Intrinsic Evaluation of Unlearning Using Parametric Knowledge Traces Yihuai Hong Lei Yu Shauli Ravfogel Haiqin Yang Mor Geva KELM MU 58 17 0 17 Jun 2024
RWKU: Benchmarking Real-World Knowledge Unlearning for Large Language Models Zhuoran Jin Pengfei Cao Chenhao Wang Zhitao He Hongbang Yuan Jiachun Li Yubo Chen Kang Liu Jun Zhao KELM MU 37 12 0 16 Jun 2024
Bag of Tricks: Benchmarking of Jailbreak Attacks on LLMs Zhao Xu Fan Liu Hao Liu AAML 35 7 0 13 Jun 2024