Title
Unified Defense for Large Language Models against Jailbreak and Fine-Tuning Attacks in Education Xin Yi Yue Li Dongsheng Shi Linlin Wang Xiaoling Wang Liang He AAML 164 0 0 18 Nov 2025
REMIND: Input Loss Landscapes Reveal Residual Memorization in Post-Unlearning LLMs Liran Cohen Yaniv Nemcovesky Avi Mendelson MU AAML CLL KELM 207 0 0 06 Nov 2025
Adaptive Defense against Harmful Fine-Tuning for Large Language Models via Bayesian Data Scheduler Zixuan Hu Li Shen Zhenyi Wang Yongxian Wei Dacheng Tao AAML 107 0 0 31 Oct 2025
A Survey on Unlearning in Large Language Models Ruichen Qiu Jiajun Tan Jiayue Pu Honglin Wang Xiao-Shan Gao Fei Sun MU AILaw PILM 542 0 0 29 Oct 2025
Self-Jailbreaking: Language Models Can Reason Themselves Out of Safety Alignment After Benign Reasoning Training Zheng-Xin Yong Stephen H. Bach LRM 192 0 0 23 Oct 2025
A Guardrail for Safety Preservation: When Safety-Sensitive Subspace Meets Harmful-Resistant Null-Space Bingjie Zhang Yibo Yang Renzhe Dandan Guo Jindong Gu Philip Torr Bernard Ghanem 195 0 0 16 Oct 2025
Pharmacist: Safety Alignment Data Curation for Large Language Models against Harmful Fine-tuning Guozhi Liu Qi Mu Tiansheng Huang Xinhua Wang Li Shen Weiwei Lin Zhang Li 72 1 0 11 Oct 2025
LLM Unlearning Under the Microscope: A Full-Stack View on Methods and Metrics Chongyu Fan Changsheng Wang Yancheng Huang Soumyadeep Pal Sijia Liu MU ELM 132 0 0 08 Oct 2025
Fine-Tuning Jailbreaks under Highly Constrained Black-Box Settings: A Three-Pronged Approach X. Li Y. Wang Bo Li AAML 181 0 0 01 Oct 2025
Downgrade to Upgrade: Optimizer Simplification Enhances Robustness in LLM Unlearning Yicheng Lang Yihua Zhang Chongyu Fan Changsheng Wang Jinghan Jia Sijia Liu MU 309 0 0 01 Oct 2025
Understanding the Dilemma of Unlearning for Large Language Models Qingjie Zhang Haoting Qian Zhicong Huang Cheng Hong Shiyu Huang Ke Xu Chao Zhang Han Qiu MU 200 1 0 29 Sep 2025
Beyond Surface Alignment: Rebuilding LLMs Safety Mechanism via Probabilistically Ablating Refusal Direction Yuanbo Xie Yingjie Zhang Tianyun Liu Duohe Ma Tingwen Liu AAML 99 1 0 18 Sep 2025
Collapse of Irrelevant Representations (CIR) Ensures Robust and Non-Disruptive LLM Unlearning Filip Sondej Yushi Yang MU 282 0 0 15 Sep 2025
Token Buncher: Shielding LLMs from Harmful Reinforcement Learning Fine-Tuning Weitao Feng Lixu Wang Tianyi Wei Jie Zhang Chongyang Gao Sinong Zhan Peizhuo Lv Wei Dong AAML OffRL CLL 60 0 0 28 Aug 2025
Towards Safeguarding LLM Fine-tuning APIs against Cipher Attacks Jack Youstra Mohammed Mahfoud Yang Yan Henry Sleight Ethan Perez Mrinank Sharma AAML 112 2 0 23 Aug 2025
Gradient Surgery for Safe LLM Fine-Tuning Biao Yi Jiahao Li Baolei Zhang Lihai Nie Tong Li Tiansheng Huang Zheli Liu 86 1 0 10 Aug 2025
Fine-Grained Safety Neurons with Training-Free Continual Projection to Reduce LLM Fine Tuning Risks Bing Han Feifei Zhao Dongcheng Zhao Guobin Shen Ping Wu Yu Shi Yi Zeng 136 0 0 08 Aug 2025
LLM Unlearning Without an Expert Curated Dataset Xiaoyuan Zhu Muru Zhang Ollie Liu Robin Jia Willie Neiswanger MU 175 0 0 08 Aug 2025
Estimating Worst-Case Frontier Risks of Open-Weight LLMs Eric Wallace Olivia Watkins Miles Wang Kai Chen Chris Koch 118 7 0 05 Aug 2025
SDD: Self-Degraded Defense against Malicious Fine-tuningAnnual Meeting of the Association for Computational Linguistics (ACL), 2025 ZiXuan Chen Weikai Lu Xin Lin Ziqian Zeng AAML 107 0 0 27 Jul 2025
A Survey on Generative Model Unlearning: Fundamentals, Taxonomy, Evaluation, and Future Direction Xiaohua Feng Jiaming Zhang Fengyuan Yu C. Wang Li Zhang Kaixiang Li Yuyuan Li Chaochao Chen Jianwei Yin MU 190 2 0 26 Jul 2025
Jailbreak-Tuning: Models Efficiently Learn Jailbreak Susceptibility Brendan Murphy Dillon Bowen Shahrad Mohammadzadeh Tom Tseng Julius Broomfield Adam Gleave Kellin Pelrine 174 2 0 15 Jul 2025
Probe before You Talk: Towards Black-box Defense against Backdoor Unalignment for Large Language ModelsInternational Conference on Learning Representations (ICLR), 2025 Biao Yi Tiansheng Huang Sishuo Chen Tong Li Zheli Liu Zhixuan Chu Yiming Li AAML 167 19 0 19 Jun 2025
FORTRESS: Frontier Risk Evaluation for National Security and Public Safety Christina Q. Knight Kaustubh Deshpande Ved Sirdeshmukh Meher Mankikar Scale Red Team SEAL Research Team Julian Michael AAML ELM 251 2 0 17 Jun 2025
Robust LLM Unlearning with MUDMAN: Meta-Unlearning with Disruption Masking And Normalization Filip Sondej Yushi Yang Mikołaj Kniejski Marcel Windys MU 277 2 0 14 Jun 2025
Prompt Attacks Reveal Superficial Knowledge Removal in Unlearning Methods Yeonwoo Jang Shariqah Hossain Ashwin Sreevatsa Diogo Cruz AAML MU 184 2 0 11 Jun 2025
AsFT: Anchoring Safety During LLM Fine-Tuning Within Narrow Safety Basin Shuo Yang Qihui Zhang Yuyang Liu Yue Huang Xiaojun Jia ... Jiayu Yao Jigang Wang Hailiang Dai Yibing Song Li Yuan 190 8 0 10 Jun 2025
Distillation Robustifies Unlearning Bruce W. Lee Addie Foote Alex Infanger Leni Shor Harish Kamath Jacob Goldman-Wetzler Bryce Woodworth Alex Cloud Alexander Matt Turner MU 341 4 0 06 Jun 2025
Benchmarking Misuse Mitigation Against Covert Adversaries Davis Brown Mahdi Sabbaghi Luze Sun Avi Schwarzschild George Pappas Eric Wong Hamed Hassani 104 2 0 06 Jun 2025
Invariance Makes LLM Unlearning Resilient Even to Unanticipated Downstream Fine-Tuning Changsheng Wang Yihua Zhang Jinghan Jia Parikshit Ram Dennis L. Wei Yuguang Yao Soumyadeep Pal Nathalie Baracaldo Sijia Liu MU 202 4 0 02 Jun 2025
Existing Large Language Model Unlearning Evaluations Are Inconclusive Zhili Feng Yixuan Even Xu Avi Schwarzschild Robert Kirk Xander Davies Yarin Gal Avi Schwarzschild J. Zico Kolter MU ELM 125 5 0 31 May 2025
Watch your steps: Dormant Adversarial Behaviors that Activate upon LLM Finetuning Thibaud Gloaguen Mark Vero Robin Staab Martin Vechev AAML 353 0 0 22 May 2025
Shape it Up! Restoring LLM Safety during Finetuning ShengYun Peng Pin-Yu Chen Jianfeng Chi Seongmin Lee Duen Horng Chau LLMAG 236 3 0 22 May 2025
CTRAP: Embedding Collapse Trap to Safeguard Large Language Models from Harmful Fine-Tuning Biao Yi Tiansheng Huang Baolei Zhang Tong Li Lihai Nie Zheli Liu Li Shen MU AAML 271 5 0 22 May 2025
Mitigating Fine-tuning Risks in LLMs via Safety-Aware Probing Optimization Chengcan Wu Zhixin Zhang Zeming Wei Yihao Zhang Meng Sun AAML 200 8 0 22 May 2025
Safety Subspaces are Not Linearly Distinct: A Fine-Tuning Case Study Kaustubh Ponkshe Shaan Shah Raghav Singhal Praneeth Vepakomma 274 0 0 20 May 2025
Security practices in AI developmentAi & Society (AS), 2025 Petr Spelda Vit Stritecky 166 1 0 17 May 2025
Ready2Unlearn: A Learning-Time Approach for Preparing Models with Future Unlearning Readiness Hanyu Duan Yi Yang Ahmed Abbasi Kar Yan Tam MU OnRL 213 0 0 16 May 2025
Layered Unlearning for Adversarial Relearning Timothy Qian Vinith Suriyakumar Ashia Wilson Dylan Hadfield-Menell MU 262 1 0 14 May 2025
Benign Samples Matter! Fine-tuning On Outlier Benign Samples Severely Breaks Safety Zihan Guan Mengxuan Hu Ronghang Zhu Sheng Li Anil Vullikanti AAML 259 10 0 11 May 2025
Fight Fire with Fire: Defending Against Malicious RL Fine-Tuning via Reward Neutralization Wenjun Cao AAML 191 2 0 07 May 2025
SafeMERGE: Preserving Safety Alignment in Fine-Tuned Large Language Models via Selective Layer-Wise Model Merging Aladin Djuhera S. Kadhe Praneet Adusumilli Syed Zawad Holger Boche MoMe 193 13 0 21 Mar 2025
Improving LLM Safety Alignment with Dual-Objective Optimization Xuandong Zhao Will Cai Tianneng Shi David Huang Licong Lin Song Mei Dawn Song AAML MU 437 13 0 05 Mar 2025
Beyond Release: Access Considerations for Generative AI Systems Irene Solaiman Rishi Bommasani Dan Hendrycks Ariel Herbert-Voss Yacine Jernite Aviya Skowron Andrew Trask 452 3 0 23 Feb 2025
A Generative Approach to LLM Harmfulness Mitigation with Red Flag Tokens Sophie Xhonneux David Dobre Mehrnaz Mohfakhami Leo Schwinn Gauthier Gidel 505 2 0 22 Feb 2025
Adversarial ML Problems Are Getting Harder to Solve and to Evaluate Javier Rando Jie Zhang Nicholas Carlini F. Tramèr AAML ELM 312 17 0 04 Feb 2025
Model Tampering Attacks Enable More Rigorous Evaluations of LLM Capabilities Zora Che Stephen Casper Robert Kirk Anirudh Satheesh Stewart Slocum ... Zikui Cai Bilal Chughtai Y. Gal Furong Huang Dylan Hadfield-Menell MU AAML ELM 503 21 0 03 Feb 2025
Panacea: Mitigating Harmful Fine-tuning for Large Language Models via Post-fine-tuning Perturbation Yun Wang Tiansheng Huang Li Shen Huanjin Yao Haotian Luo Rui Liu Naiqiang Tan Jiaxing Huang Dacheng Tao AAML MoMe CLL 339 9 0 30 Jan 2025
On Evaluating the Durability of Safeguards for Open-Weight LLMsInternational Conference on Learning Representations (ICLR), 2024 Xiangyu Qi Boyi Wei Nicholas Carlini Yangsibo Huang Tinghao Xie Luxi He Matthew Jagielski Milad Nasr Prateek Mittal Peter Henderson AAML 308 35 0 10 Dec 2024
Machine Unlearning Doesn't Do What You Think: Lessons for Generative AI Policy and Research A. Feder Cooper Christopher A. Choquette-Choo Miranda Bogen Matthew Jagielski Katja Filippova ... Hanna M. Wallach Amy Cyphert Katherine Lee Nicolas Papernot Katherine Lee MU AILaw 299 29 0 09 Dec 2024

All Papers

Tamper-Resistant Safeguards for Open-Weight LLMs

Papers citing "Tamper-Resistant Safeguards for Open-Weight LLMs"