Machine Unlearning Fails to Remove Data Poisoning Attacks

25 June 2024

Papers citing "Machine Unlearning Fails to Remove Data Poisoning Attacks"

9 / 9 papers shown

Title
Erasing Without Remembering: Safeguarding Knowledge Forgetting in Large Language Models Huazheng Wang Yongcheng Jing Haifeng Sun Yingjie Wang J. Wang Jianxin Liao Dacheng Tao KELM MU 37 0 0 27 Feb 2025
Delta-Influence: Unlearning Poisons via Influence Functions Wenjie Li Jiawei Li Christian Schroeder de Witt Ameya Prabhu Amartya Sanyal TDI MU 79 0 0 20 Nov 2024
Attribute-to-Delete: Machine Unlearning via Datamodel Matching Kristian Georgiev Roy Rinberg Sung Min Park Shivam Garg Andrew Ilyas Aleksander Madry Seth Neel MU 28 2 0 30 Oct 2024
Data Deletion for Linear Regression with Noisy SGD Zhangjie Xia Chi-Hua Wang Guang Cheng 20 2 0 12 Oct 2024
An Adversarial Perspective on Machine Unlearning for AI Safety Jakub Łucki Boyi Wei Yangsibo Huang Peter Henderson F. Tramèr Javier Rando MU AAML 49 31 0 26 Sep 2024
Poisoning Language Models During Instruction Tuning Alexander Wan Eric Wallace Sheng Shen Dan Klein SILM 90 179 0 01 May 2023
Exploring the Limits of Model-Targeted Indiscriminate Data Poisoning Attacks Yiwei Lu Gautam Kamath Yaoliang Yu AAML 29 9 0 07 Mar 2023
Knowledge Unlearning for Mitigating Privacy Risks in Language Models Joel Jang Dongkeun Yoon Sohee Yang Sungmin Cha Moontae Lee Lajanugen Logeswaran Minjoon Seo KELM PILM MU 139 188 0 04 Oct 2022
Linear Adversarial Concept Erasure Shauli Ravfogel Michael Twiton Yoav Goldberg Ryan Cotterell KELM 62 56 0 28 Jan 2022