Towards Understanding the Fragility of Multilingual LLMs against Fine-Tuning Attacks

23 October 2024

Papers citing "Towards Understanding the Fragility of Multilingual LLMs against Fine-Tuning Attacks"

6 / 6 papers shown

Title
Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs Jan Betley Daniel Tan Niels Warncke Anna Sztyber-Betley Xuchan Bao Martín Soto Nathan Labenz Owain Evans AAML 73 8 0 24 Feb 2025
Panacea: Mitigating Harmful Fine-tuning for Large Language Models via Post-fine-tuning Perturbation Y. Wang Tiansheng Huang Li Shen H. Yao Haotian Luo Rui Liu Naiqiang Tan Jiaxing Huang Dacheng Tao AAML MoMe CLL 104 1 0 30 Jan 2025
PEFT-as-an-Attack! Jailbreaking Language Models during Federated Parameter-Efficient Fine-Tuning Shenghui Li Edith C. H. Ngai Fanghua Ye Thiemo Voigt SILM 73 3 0 28 Nov 2024
Large Language Models are Easily Confused: A Quantitative Metric, Security Implications and Typological Analysis Yiyi Chen Qiongxiu Li Russa Biswas Johannes Bjerva 28 1 0 17 Oct 2024
Harmful Fine-tuning Attacks and Defenses for Large Language Models: A Survey Tiansheng Huang Sihao Hu Fatih Ilhan Selim Furkan Tekin Ling Liu AAML 31 21 0 26 Sep 2024
Against All Odds: Overcoming Typology, Script, and Language Confusion in Multilingual Embedding Inversion Attacks Yiyi Chen Russa Biswas Heather Lent Johannes Bjerva AAML 32 4 0 21 Aug 2024