TOFU: A Task of Fictitious Unlearning for LLMs

11 January 2024

J. Zico Kolter

Papers citing "TOFU: A Task of Fictitious Unlearning for LLMs"

50 / 118 papers shown

Title
Unilogit: Robust Machine Unlearning for LLMs Using Uniform-Target Self-Distillation Stefan Vasilev Christian Herold Baohao Liao Seyyed Hadi Hashemi Shahram Khadivi Christof Monz MU 35 0 0 09 May 2025
WaterDrum: Watermarking for Data-centric Unlearning Metric Xinyang Lu Xinyuan Niu Gregory Kang Ruey Lau Bui Thi Cam Nhung Rachael Hwee Ling Sim Fanyu Wen Chuan-Sheng Foo S. Ng Bryan Kian Hsiang Low MU 41 0 0 08 May 2025
OBLIVIATE: Robust and Practical Machine Unlearning for Large Language Models Xiaoyu Xu Minxin Du Qingqing Ye Haibo Hu MU 40 0 0 07 May 2025
Teaching Models to Understand (but not Generate) High-risk Data Ryan Yixiang Wang Matthew Finlayson Luca Soldaini Swabha Swayamdipta Robin Jia 17 0 0 05 May 2025
Unlearning vs. Obfuscation: Are We Truly Removing Knowledge? Guangzhi Sun Potsawee Manakul Xiao Zhan Mark J. F. Gales MU 38 0 0 05 May 2025
Unlearning Sensitive Information in Multimodal LLMs: Benchmark and Attack-Defense Evaluation Vaidehi Patil Yi-Lin Sung Peter Hase Jie Peng Tianlong Chen Mohit Bansal AAML MU 77 3 0 01 May 2025
EnronQA: Towards Personalized RAG over Private Documents Michael J. Ryan Danmei Xu Chris Nivera Daniel Campos SILM 53 0 0 01 May 2025
Rethinking Memory in AI: Taxonomy, Operations, Topics, and Future Directions Yiming Du Wenyu Huang Danna Zheng Zhaowei Wang Sébastien Montella Mirella Lapata Kam-Fai Wong Jeff Z. Pan KELM MU 65 1 0 01 May 2025
Safety Pretraining: Toward the Next Generation of Safe AI Pratyush Maini Sachin Goyal Dylan Sam Alex Robey Yash Savani Yiding Jiang Andy Zou Zacharcy C. Lipton J. Zico Kolter 47 0 0 23 Apr 2025
DualOptim: Enhancing Efficacy and Stability in Machine Unlearning with Dual Optimizers Xuyang Zhong Haochen Luo Chen Liu MU 15 0 0 22 Apr 2025
Certified Mitigation of Worst-Case LLM Copyright Infringement Jingyu Zhang Jiacan Yu Marc Marone Benjamin Van Durme Daniel Khashabi MoMe 35 0 0 22 Apr 2025
A mean teacher algorithm for unlearning of language models Yegor Klochkov MU 58 0 0 18 Apr 2025
SHA256 at SemEval-2025 Task 4: Selective Amnesia -- Constrained Unlearning for Large Language Models via Knowledge Isolation Saransh Agrawal Kuan-Hao Huang MU KELM 52 0 0 17 Apr 2025
GRAIL: Gradient-Based Adaptive Unlearning for Privacy and Copyright in LLMs Kun-Woo Kim Ji-Hoon Park Ju-Min Han Seong-Whan Lee MU PILM 62 0 0 17 Apr 2025
When is Task Vector Provably Effective for Model Editing? A Generalization Analysis of Nonlinear Transformers Hongkang Li Yihua Zhang Shuai Zhang M. Wang Sijia Liu Pin-Yu Chen MoMe 43 2 0 15 Apr 2025
Bridging the Gap Between Preference Alignment and Machine Unlearning Xiaohua Feng Yuyuan Li Huwei Ji Jiaming Zhang L. Zhang Tianyu Du Chaochao Chen MU 38 0 0 09 Apr 2025
A Neuro-inspired Interpretation of Unlearning in Large Language Models through Sample-level Unlearning Difficulty Xiaohua Feng Yuyuan Li C. Wang Junlin Liu L. Zhang Chaochao Chen MU 19 0 0 09 Apr 2025
Not All Data Are Unlearned Equally Aravind Krishnan Siva Reddy Marius Mosbach MU 39 0 0 07 Apr 2025
Exact Unlearning of Finetuning Data via Model Merging at Scale Kevin Kuo Amrith Rajagopal Setlur Kartik Srinivas Aditi Raghunathan Virginia Smith MoMe CLL MU 42 0 0 06 Apr 2025
SemEval-2025 Task 4: Unlearning sensitive content from Large Language Models Anil Ramakrishna Yixin Wan Xiaomeng Jin Kai-Wei Chang Zhiqi Bu Bhanukiran Vinzamuri V. Cevher Mingyi Hong Rahul Gupta AILaw MU 58 0 0 02 Apr 2025
Representation Bending for Large Language Model Safety Ashkan Yousefpour Taeheon Kim Ryan S. Kwon Seungbeen Lee Wonje Jeung Seungju Han Alvin Wan Harrison Ngan Youngjae Yu Jonghyun Choi AAML ALM KELM 52 0 0 02 Apr 2025
SUV: Scalable Large Language Model Copyright Compliance with Regularized Selective Unlearning Tianyang Xu Xiaoze Liu Feijie Wu Xiaoqian Wang Jing Gao MU 49 0 0 29 Mar 2025
Deep Contrastive Unlearning for Language Models Estrid He Tabinda Sarwar Ibrahim Khalil X. Yi Ke Wang MU 46 0 0 19 Mar 2025
Atyaephyra at SemEval-2025 Task 4: Low-Rank Negative Preference Optimization Jan Bronec Jindřich Helcl MU 70 0 0 17 Mar 2025
Empirical Privacy Variance Yuzheng Hu Fan Wu Ruicheng Xian Yuhang Liu Lydia Zakynthinou Pritish Kamath Chiyuan Zhang David A. Forsyth 60 0 0 16 Mar 2025
SAUCE: Selective Concept Unlearning in Vision-Language Models with Sparse Autoencoders Qing Li Jiahui Geng Derui Zhu Fengyu Cai Chenyang Lyu Fakhri Karray MU 41 0 0 16 Mar 2025
Learning to Unlearn while Retaining: Combating Gradient Conflicts in Machine Unlearning Gaurav Patel Qiang Qiu MU 54 1 0 08 Mar 2025
UIPE: Enhancing LLM Unlearning by Removing Knowledge Related to Forgetting Targets Wenyu Wang M. Zhang Xiaotian Ye Z. Z. Ren Z. Chen Pengjie Ren MU KELM 67 0 0 06 Mar 2025
AILS-NTUA at SemEval-2025 Task 4: Parameter-Efficient Unlearning for Large Language Models using Data Chunking Iraklis Premptis Maria Lymperaiou Giorgos Filandrianos Orfeas Menis-Mastromichalakis Athanasios Voulodimos Giorgos Stamou MU 39 0 0 04 Mar 2025
Erasing Without Remembering: Safeguarding Knowledge Forgetting in Large Language Models Huazheng Wang Yongcheng Jing Haifeng Sun Yingjie Wang J. Wang Jianxin Liao Dacheng Tao KELM MU 42 0 0 27 Feb 2025
Rethinking LLM Unlearning Objectives: A Gradient Perspective and Go Beyond Qizhou Wang Jin Peng Zhou Zhanke Zhou Saebyeol Shin Bo Han Kilian Q. Weinberger AILaw ELM MU 63 3 0 26 Feb 2025
FaithUn: Toward Faithful Forgetting in Language Models by Investigating the Interconnectedness of Knowledge Nakyeong Yang Minsung Kim Seunghyun Yoon Joongbo Shin Kyomin Jung KELM MU 55 0 0 26 Feb 2025
Holistic Audit Dataset Generation for LLM Unlearning via Knowledge Graph Traversal and Redundancy Removal Weipeng Jiang Juan Zhai Shiqing Ma Ziyan Lei Xiaofei Xie Yige Wang Chao Shen MU 59 0 0 26 Feb 2025
A General Framework to Enhance Fine-tuning-based LLM Unlearning J. Ren Zhenwei Dai X. Tang Hui Liu Jingying Zeng ... R. Goutam Suhang Wang Yue Xing Qi He Hui Liu MU 91 1 0 25 Feb 2025
A Comprehensive Survey of Machine Unlearning Techniques for Large Language Models Jiahui Geng Qing Li Herbert Woisetschlaeger Zongxiong Chen Y. Wang Preslav Nakov Hans-Arno Jacobsen Fakhri Karray MU 41 1 0 22 Feb 2025
LUME: LLM Unlearning with Multitask Evaluations Anil Ramakrishna Yixin Wan Xiaomeng Jin Kai-Wei Chang Zhiqi Bu Bhanukiran Vinzamuri V. Cevher Mingyi Hong Rahul Gupta CLL MU 87 7 0 20 Feb 2025
Soft Token Attacks Cannot Reliably Audit Unlearning in Large Language Models Haokun Chen Sebastian Szyller Weilin Xu N. Himayat MU AAML 41 0 0 20 Feb 2025
UPCORE: Utility-Preserving Coreset Selection for Balanced Unlearning Vaidehi Patil Elias Stengel-Eskin Mohit Bansal MU CLL 73 2 0 20 Feb 2025
SafeEraser: Enhancing Safety in Multimodal Large Language Models through Multimodal Machine Unlearning Junkai Chen Zhijie Deng Kening Zheng Yibo Yan Shuliang Liu PeiJun Wu Peijie Jiang J. Liu Xuming Hu MU 46 3 0 18 Feb 2025
Which Retain Set Matters for LLM Unlearning? A Case Study on Entity Unlearning Hwan Chang Hwanhee Lee MU 37 0 0 17 Feb 2025
ReLearn: Unlearning via Learning for Large Language Models Haoming Xu Ningyuan Zhao Liming Yang Sendong Zhao Shumin Deng Mengru Wang Bryan Hooi Nay Oo H. Chen N. Zhang KELM CLL MU 51 0 0 16 Feb 2025
LUNAR: LLM Unlearning via Neural Activation Redirection William F. Shen Xinchi Qiu Meghdad Kurmanji Alex Iacob Lorenzo Sani Yihong Chen Nicola Cancedda Nicholas D. Lane MU 41 1 0 11 Feb 2025
Large Language Model Federated Learning with Blockchain and Unlearning for Cross-Organizational Collaboration Xuhan Zuo Minghao Wang Tianqing Zhu Shui Yu Wanlei Zhou MU 59 2 0 18 Dec 2024
Machine Unlearning Doesn't Do What You Think: Lessons for Generative AI Policy, Research, and Practice A. Feder Cooper Christopher A. Choquette-Choo Miranda Bogen Matthew Jagielski Katja Filippova ... Abigail Z. Jacobs Andreas Terzis Hanna M. Wallach Nicolas Papernot Katherine Lee AILaw MU 81 10 0 09 Dec 2024
Towards Robust Evaluation of Unlearning in LLMs via Data Transformations Abhinav Joshi Shaswati Saha Divyaksh Shukla Sriram Vema Harsh Jhamtani Manas Gaur Ashutosh Modi MU 70 0 0 23 Nov 2024
Unlearning in- vs. out-of-distribution data in LLMs under gradient-based method Teodora Baluta Pascal Lamblin Daniel Tarlow Fabian Pedregosa Gintare Karolina Dziugaite MU 19 1 0 07 Nov 2024
Benchmarking Vision Language Model Unlearning via Fictitious Facial Identity Dataset Yingzi Ma Jiongxiao Wang Fei-Yue Wang Siyuan Ma Jiazhao Li ... B. Li Yejin Choi M. Chen Chaowei Xiao Chaowei Xiao MU 43 6 0 05 Nov 2024
Extracting Unlearned Information from LLMs with Activation Steering Atakan Seyitoğlu A. Kuvshinov Leo Schwinn Stephan Günnemann MU LLMSV 37 3 0 04 Nov 2024
RESTOR: Knowledge Recovery through Machine Unlearning Keivan Rezaei Khyathi Raghavi Chandu S. Feizi Yejin Choi Faeze Brahman Abhilasha Ravichander KELM CLL MU 50 0 0 31 Oct 2024
CLIPErase: Efficient Unlearning of Visual-Textual Associations in CLIP Tianyu Yang Lisen Dai Zheyuan Liu Xiangqi Wang Meng-Long Jiang Yapeng Tian Xiangliang Zhang VLM MU 29 3 0 30 Oct 2024