Position: LLM Unlearning Benchmarks are Weak Measures of Progress

Position: LLM Unlearning Benchmarks are Weak Measures of Progress

3 October 2024

Pratiksha Thaker

Zhiwei Steven Wu

Virginia Smith

Papers citing "Position: LLM Unlearning Benchmarks are Weak Measures of Progress"

9 / 9 papers shown

Title
WaterDrum: Watermarking for Data-centric Unlearning Metric Xinyang Lu Xinyuan Niu Gregory Kang Ruey Lau Bui Thi Cam Nhung Rachael Hwee Ling Sim Fanyu Wen Chuan-Sheng Foo S. Ng Bryan Kian Hsiang Low MU 39 0 0 08 May 2025
OBLIVIATE: Robust and Practical Machine Unlearning for Large Language Models Xiaoyu Xu Minxin Du Qingqing Ye Haibo Hu MU 38 0 0 07 May 2025
A mean teacher algorithm for unlearning of language models Yegor Klochkov MU 58 0 0 18 Apr 2025
$SAEs $\textit{Can}$ Improve Unlearning: Dynamic Sparse Autoencoder Guardrails for Precision Unlearning in LLMs$ SAEs $\textit{Can}$ Improve Unlearning: Dynamic Sparse Autoencoder Guardrails for Precision Unlearning in LLMs Aashiq Muhamed Jacopo Bonato Mona Diab Virginia Smith MU 37 0 0 11 Apr 2025
ZJUKLAB at SemEval-2025 Task 4: Unlearning via Model Merging Haoming Xu Shuxun Wang Yanqiu Zhao Yi Zhong Ziyan Jiang Ningyuan Zhao Shumin Deng H. Chen N. Zhang MoMe MU 59 0 0 27 Mar 2025
A General Framework to Enhance Fine-tuning-based LLM Unlearning J. Ren Zhenwei Dai X. Tang Hui Liu Jingying Zeng ... R. Goutam Suhang Wang Yue Xing Qi He Hui Liu MU 91 1 0 25 Feb 2025
ReLearn: Unlearning via Learning for Large Language Models Haoming Xu Ningyuan Zhao Liming Yang Sendong Zhao Shumin Deng Mengru Wang Bryan Hooi Nay Oo H. Chen N. Zhang KELM CLL MU 51 0 0 16 Feb 2025
LUNAR: LLM Unlearning via Neural Activation Redirection William F. Shen Xinchi Qiu Meghdad Kurmanji Alex Iacob Lorenzo Sani Yihong Chen Nicola Cancedda Nicholas D. Lane MU 41 1 0 11 Feb 2025
Adversarial Sample-Based Approach for Tighter Privacy Auditing in Final Model-Only Scenarios Sangyeon Yoon Wonje Jeung Albert No 81 0 0 02 Dec 2024