SaLoRA: Safety-Alignment Preserved Low-Rank Adaptation

SaLoRA: Safety-Alignment Preserved Low-Rank Adaptation

3 January 2025

ArXiv (abs)PDF HTML

Papers citing "SaLoRA: Safety-Alignment Preserved Low-Rank Adaptation"

14 / 14 papers shown

Title
Fine-Tuning Lowers Safety and Disrupts Evaluation Consistency Kathleen C. Fraser Hillary Dawkins I. Nejadgholi S. Kiritchenko 10 0 0 20 Jun 2025
Model Organisms for Emergent Misalignment Edward Turner Anna Soligo Mia Taylor Senthooran Rajamanoharan Neel Nanda 32 1 0 13 Jun 2025
AsFT: Anchoring Safety During LLM Fine-Tuning Within Narrow Safety Basin Shuo Yang Qihui Zhang Yuyang Liu Yue Huang Xiaojun Jia ... Jiayu Yao Jigang Wang Hailiang Dai Yibing Song Li Yuan 39 0 0 10 Jun 2025
Understanding Pre-training and Fine-tuning from Loss Landscape Perspectives Huanran Chen Yinpeng Dong Zeming Wei Yao Huang Yichi Zhang Hang Su Jun Zhu MoMe 94 1 0 23 May 2025
CTRAP: Embedding Collapse Trap to Safeguard Large Language Models from Harmful Fine-Tuning Biao Yi Tiansheng Huang Baolei Zhang Tong Li Lihai Nie Zheli Liu Li Shen MU AAML 98 0 0 22 May 2025
Mitigating Fine-tuning Risks in LLMs via Safety-Aware Probing Optimization Chengcan Wu Zhixin Zhang Zeming Wei Yihao Zhang Meng Sun AAML 61 1 0 22 May 2025
Benign Samples Matter! Fine-tuning On Outlier Benign Samples Severely Breaks Safety Zihan Guan Mengxuan Hu Ronghang Zhu Sheng Li Anil Vullikanti AAML 81 3 0 11 May 2025
Panacea: Mitigating Harmful Fine-tuning for Large Language Models via Post-fine-tuning Perturbation Yun Wang Tiansheng Huang Li Shen Huanjin Yao Haotian Luo Rui Liu Naiqiang Tan Jiaxing Huang Dacheng Tao AAML MoMe CLL 205 4 0 30 Jan 2025
Beyond Interpretability: The Gains of Feature Monosemanticity on Model Robustness Qi Zhang Yifei Wang Jingyi Cui Xiang Pan Qi Lei Stefanie Jegelka Yisen Wang AAML 133 2 0 27 Oct 2024
Harmful Fine-tuning Attacks and Defenses for Large Language Models: A Survey Tiansheng Huang Sihao Hu Fatih Ilhan Selim Furkan Tekin Ling Liu AAML 135 46 0 26 Sep 2024
Generated Data with Fake Privacy: Hidden Dangers of Fine-tuning Large Language Models on Generated Data Atilla Akkus Mingjie Li Junjie Chu Junjie Chu Michael Backes Sinem Sav Sinem Sav SILM SyDa 126 4 0 12 Sep 2024
Lazy Safety Alignment for Large Language Models against Harmful Fine-tuning Tiansheng Huang Sihao Hu Fatih Ilhan Selim Furkan Tekin Ling Liu 155 32 0 28 May 2024
PiSSA: Principal Singular Values and Singular Vectors Adaptation of Large Language Models Fanxu Meng Zhaohui Wang Muhan Zhang VLM 157 104 0 03 Apr 2024
Vaccine: Perturbation-aware Alignment for Large Language Model Tiansheng Huang Sihao Hu Ling Liu 119 49 0 02 Feb 2024