TOFU: A Task of Fictitious Unlearning for LLMs

TOFU: A Task of Fictitious Unlearning for LLMs

11 January 2024

Avi Schwarzschild

Zachary Chase Lipton

J. Zico Kolter

Papers citing "TOFU: A Task of Fictitious Unlearning for LLMs"

18 / 118 papers shown

Title
Forcing Diffuse Distributions out of Language Models Yiming Zhang Avi Schwarzschild Nicholas Carlini Zico Kolter Daphne Ippolito ALM DiffM 31 15 0 16 Apr 2024
Negative Preference Optimization: From Catastrophic Collapse to Effective Unlearning Ruiqi Zhang Licong Lin Yu Bai Song Mei MU 56 124 0 08 Apr 2024
Machine Unlearning for Traditional Models and Large Language Models: A Short Survey Yi Xu AILaw MU 24 1 0 01 Apr 2024
Towards Efficient and Effective Unlearning of Large Language Models for Recommendation Hangyu Wang Jianghao Lin Bo Chen Yang Yang Ruiming Tang Weinan Zhang Yong Yu MU 29 9 0 06 Mar 2024
Guardrail Baselines for Unlearning in LLMs Pratiksha Thaker Yash Maurya Shengyuan Hu Zhiwei Steven Wu Virginia Smith MU 41 37 0 05 Mar 2024
Eight Methods to Evaluate Robust Unlearning in LLMs Aengus Lynch Phillip Guo Aidan Ewart Stephen Casper Dylan Hadfield-Menell ELM MU 35 55 0 26 Feb 2024
Machine Unlearning of Pre-trained Large Language Models Jin Yao Eli Chien Minxin Du Xinyao Niu Tianhao Wang Zezhou Cheng Xiang Yue MU 45 34 0 23 Feb 2024
UnlearnCanvas: Stylized Image Dataset for Enhanced Machine Unlearning Evaluation in Diffusion Models Yihua Zhang Chongyu Fan Yimeng Zhang Yuguang Yao Jinghan Jia ... Gaoyuan Zhang Gaowen Liu Ramana Rao Kompella Xiaoming Liu Sijia Liu DiffM 24 4 0 19 Feb 2024
Towards Safer Large Language Models through Machine Unlearning Zheyuan Liu Guangyao Dou Zhaoxuan Tan Yijun Tian Meng-Long Jiang KELM MU 19 72 0 15 Feb 2024
Soft Prompt Threats: Attacking Safety Alignment and Unlearning in Open-Source LLMs through the Embedding Space Leo Schwinn David Dobre Sophie Xhonneux Gauthier Gidel Stephan Gunnemann AAML 35 36 0 14 Feb 2024
An Information Theoretic Approach to Machine Unlearning Jack Foster Kyle Fogarty Stefan Schoepf Cengiz Öztireli Alexandra Brintrup MU 24 4 0 02 Feb 2024
Unlearning Traces the Influential Training Data of Language Models Masaru Isonuma Ivan Titov MU 13 2 0 26 Jan 2024
Reinforcement Unlearning Dayong Ye Tianqing Zhu Congcong Zhu Derui Wang Zewei Shi Sheng Shen Wanlei Zhou Jason Xue MU 13 7 0 26 Dec 2023
MultiDelete for Multimodal Machine Unlearning Jiali Cheng Hadi Amiri MU 33 7 0 18 Nov 2023
Who's Harry Potter? Approximate Unlearning in LLMs Ronen Eldan M. Russinovich MU MoMe 101 171 0 03 Oct 2023
Knowledge Unlearning for Mitigating Privacy Risks in Language Models Joel Jang Dongkeun Yoon Sohee Yang Sungmin Cha Moontae Lee Lajanugen Logeswaran Minjoon Seo KELM PILM MU 145 110 0 04 Oct 2022
Dataset Inference: Ownership Resolution in Machine Learning Pratyush Maini Mohammad Yaghini Nicolas Papernot FedML 61 100 0 21 Apr 2021
Extracting Training Data from Large Language Models Nicholas Carlini Florian Tramèr Eric Wallace Matthew Jagielski Ariel Herbert-Voss ... Tom B. Brown D. Song Ulfar Erlingsson Alina Oprea Colin Raffel MLAU SILM 264 1,798 0 14 Dec 2020