SEPS: A Separability Measure for Robust Unlearning in LLMs

20 May 2025

Papers citing "SEPS: A Separability Measure for Robust Unlearning in LLMs"

43 / 43 papers shown

Title
Towards Robust Evaluation of Unlearning in LLMs via Data Transformations Abhinav Joshi Shaswati Saha Divyaksh Shukla Sriram Vema Harsh Jhamtani Manas Gaur Ashutosh Modi MU 101 4 0 23 Nov 2024
Large Language Models Still Exhibit Bias in Long Text Wonje Jeung Dongjae Jeon Ashkan Yousefpour Jonghyun Choi ALM 53 5 0 23 Oct 2024
Position: LLM Unlearning Benchmarks are Weak Measures of Progress Pratiksha Thaker Shengyuan Hu Neil Kale Yash Maurya Zhiwei Steven Wu Virginia Smith MU 82 13 0 03 Oct 2024
MUSE: Machine Unlearning Six-Way Evaluation for Language Models Weijia Shi Jaechan Lee Yangsibo Huang Sadhika Malladi Jieyu Zhao Ari Holtzman Daogao Liu Luke Zettlemoyer Noah A. Smith Chiyuan Zhang MU ELM 59 54 0 08 Jul 2024
Instruction Tuning With Loss Over Instructions Zhengyan Shi Adam X. Yang Bin Wu Laurence Aitchison Emine Yilmaz Aldo Lipani ALM 56 22 0 23 May 2024
Eraser: Jailbreaking Defense in Large Language Models via Unlearning Harmful Knowledge Weikai Lu Huiping Zhuang Jianwei Wang Zhengdong Lu Zelin Chen Huiping Zhuang Cen Chen MU AAML KELM 47 28 0 08 Apr 2024
Negative Preference Optimization: From Catastrophic Collapse to Effective Unlearning Ruiqi Zhang Licong Lin Yu Bai Song Mei MU 98 150 0 08 Apr 2024
Guardrail Baselines for Unlearning in LLMs Pratiksha Thaker Yash Maurya Shengyuan Hu Zhiwei Steven Wu Virginia Smith MU 64 43 0 05 Mar 2024
The WMDP Benchmark: Measuring and Reducing Malicious Use With Unlearning Nathaniel Li Alexander Pan Anjali Gopal Summer Yue Daniel Berrios ... Yan Shoshitaishvili Jimmy Ba K. Esvelt Alexandr Wang Dan Hendrycks ELM 76 157 0 05 Mar 2024
Eight Methods to Evaluate Robust Unlearning in LLMs Aengus Lynch Phillip Guo Aidan Ewart Stephen Casper Dylan Hadfield-Menell ELM MU 77 67 0 26 Feb 2024
Learning to Edit: Aligning LLMs with Knowledge Editing Yuxin Jiang Yufei Wang Chuhan Wu Wanjun Zhong Xingshan Zeng ... Xin Jiang Lifeng Shang Ruiming Tang Qun Liu Wei Wang KELM 47 27 0 19 Feb 2024
Towards Safer Large Language Models through Machine Unlearning Zheyuan Liu Guangyao Dou Zhaoxuan Tan Yijun Tian Meng Jiang KELM MU 52 75 0 15 Feb 2024
TOFU: A Task of Fictitious Unlearning for LLMs Pratyush Maini Zhili Feng Avi Schwarzschild Zachary Chase Lipton J. Zico Kolter MU CLL 70 165 0 11 Jan 2024
Unlearn What You Want to Forget: Efficient Unlearning for LLMs Jiaao Chen Diyi Yang MU 53 146 0 31 Oct 2023
In-Context Unlearning: Language Models as Few Shot Unlearners Martin Pawelczyk Seth Neel Himabindu Lakkaraju MU 47 112 0 11 Oct 2023
Who's Harry Potter? Approximate Unlearning in LLMs Ronen Eldan M. Russinovich MU MoMe 125 191 0 03 Oct 2023
Can Sensitive Information Be Deleted From LLMs? Objectives for Defending Against Extraction Attacks Vaidehi Patil Peter Hase Joey Tianyi Zhou KELM AAML 74 102 0 29 Sep 2023
Qwen Technical Report Jinze Bai Shuai Bai Yunfei Chu Zeyu Cui Kai Dang ... Zhenru Zhang Chang Zhou Jingren Zhou Xiaohuan Zhou Tianhang Zhu OSLM 157 1,756 0 28 Sep 2023
Tight Bounds for Machine Unlearning via Differential Privacy Yiyang Huang C. Canonne MU 48 12 0 02 Sep 2023
Llama 2: Open Foundation and Fine-Tuned Chat Models Hugo Touvron Louis Martin Kevin R. Stone Peter Albert Amjad Almahairi ... Sharan Narang Aurelien Rodriguez Robert Stojnic Sergey Edunov Thomas Scialom AI4MH ALM 206 11,636 0 18 Jul 2023
Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena Lianmin Zheng Wei-Lin Chiang Ying Sheng Siyuan Zhuang Zhanghao Wu ... Dacheng Li Eric Xing Haotong Zhang Joseph E. Gonzalez Ion Stoica ALM OSLM ELM 236 4,186 0 09 Jun 2023
Direct Preference Optimization: Your Language Model is Secretly a Reward Model Rafael Rafailov Archit Sharma E. Mitchell Stefano Ermon Christopher D. Manning Chelsea Finn ALM 276 3,712 0 29 May 2023
Detecting Edit Failures In Large Language Models: An Improved Specificity Benchmark J. Hoelscher-Obermaier Julia Persson Esben Kran Ioannis Konstas Fazl Barez KELM 24 59 0 27 May 2023
GPT-4 Technical Report OpenAI OpenAI OpenAI Josh Achiam Steven Adler Sandhini Agarwal Lama Ahmad ... Shengjia Zhao Tianhao Zheng Juntang Zhuang William Zhuk Barret Zoph LLMAG MLLM 631 13,788 0 15 Mar 2023
Is ChatGPT a Good NLG Evaluator? A Preliminary Study Jiaan Wang Yunlong Liang Fandong Meng Zengkui Sun Haoxiang Shi Zhixu Li Jinan Xu Jianfeng Qu Jie Zhou LM&MA ELM ALM AI4MH 93 458 0 07 Mar 2023
Knowledge Unlearning for Mitigating Privacy Risks in Language Models Joel Jang Dongkeun Yoon Sohee Yang Sungmin Cha Moontae Lee Lajanugen Logeswaran Minjoon Seo KELM PILM MU 158 206 0 04 Oct 2022
Can Bad Teaching Induce Forgetting? Unlearning in Deep Networks using an Incompetent Teacher Vikram S Chundawat Ayush K Tarun Murari Mandal Mohan S. Kankanhalli MU 44 128 0 17 May 2022
Towards Adversarial Evaluations for Inexact Machine Unlearning Shashwat Goel Ameya Prabhu Amartya Sanyal Ser-Nam Lim Philip Torr Ponnurangam Kumaraguru AAML ELM MU 81 53 0 17 Jan 2022
Membership Inference Attacks From First Principles Nicholas Carlini Steve Chien Milad Nasr Shuang Song Andreas Terzis Florian Tramèr MIACV MIALM 46 663 0 07 Dec 2021
On the Necessity of Auditable Algorithmic Definitions for Machine Unlearning Anvith Thudi Hengrui Jia Ilia Shumailov Nicolas Papernot MU 49 146 0 22 Oct 2021
Manipulating SGD with Data Ordering Attacks Ilia Shumailov Zakhar Shumaylov Dmitry Kazhdan Yiren Zhao Nicolas Papernot Murat A. Erdogdu Ross J. Anderson AAML 119 92 0 19 Apr 2021
Remember What You Want to Forget: Algorithms for Machine Unlearning Ayush Sekhari Jayadev Acharya Gautam Kamath A. Suresh FedML MU 61 293 0 04 Mar 2021
Machine Unlearning via Algorithmic Stability Enayat Ullah Tung Mai Anup B. Rao Ryan Rossi R. Arora 47 104 0 25 Feb 2021
Mixed-Privacy Forgetting in Deep Networks Aditya Golatkar Alessandro Achille Avinash Ravichandran M. Polito Stefano Soatto CLL MU 147 162 0 24 Dec 2020
Machine Unlearning for Random Forests Jonathan Brophy Daniel Lowd MU 41 159 0 11 Sep 2020
Descent-to-Delete: Gradient-Based Methods for Machine Unlearning Seth Neel Aaron Roth Saeed Sharifi-Malvajerdi MU 38 264 0 06 Jul 2020
Machine Unlearning Lucas Bourtoule Varun Chandrasekaran Christopher A. Choquette-Choo Hengrui Jia Adelin Travers Baiwu Zhang David Lie Nicolas Papernot MU 101 830 0 09 Dec 2019
Eternal Sunshine of the Spotless Net: Selective Forgetting in Deep Networks Aditya Golatkar Alessandro Achille Stefano Soatto CLL MU 50 483 0 12 Nov 2019
Certified Data Removal from Machine Learning Models Chuan Guo Tom Goldstein Awni Y. Hannun Laurens van der Maaten MU 77 434 0 08 Nov 2019
Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks Nils Reimers Iryna Gurevych 641 11,979 0 27 Aug 2019
SemEval-2017 Task 1: Semantic Textual Similarity - Multilingual and Cross-lingual Focused Evaluation Daniel Cer Mona T. Diab Eneko Agirre I. Lopez-Gazpio Lucia Specia 210 1,870 0 31 Jul 2017
Distilling the Knowledge in a Neural Network Geoffrey E. Hinton Oriol Vinyals J. Dean FedML 241 19,523 0 09 Mar 2015
On the Properties of Neural Machine Translation: Encoder-Decoder Approaches Kyunghyun Cho B. V. Merrienboer Dzmitry Bahdanau Yoshua Bengio AI4CE AIMat 159 6,760 0 03 Sep 2014