BadEdit: Backdooring large language models by model editing

BadEdit: Backdooring large language models by model editing

20 March 2024

Yang Liu

Papers citing "BadEdit: Backdooring large language models by model editing"

10 / 10 papers shown

Title
BadLingual: A Novel Lingual-Backdoor Attack against Large Language Models Z. Wang Hongwei Li Rui Zhang Wenbo Jiang Kangjie Chen Tianwei Zhang Qingchuan Zhao Guowen Xu AAML 34 0 0 06 May 2025
A Survey on Privacy Risks and Protection in Large Language Models Kang Chen Xiuze Zhou Yuanguo Lin Shibo Feng Li Shen Pengcheng Wu AILaw PILM 46 0 0 04 May 2025
BadMoE: Backdooring Mixture-of-Experts LLMs via Optimizing Routing Triggers and Infecting Dormant Experts Qingyue Wang Qi Pang Xixun Lin Shuai Wang Daoyuan Wu MoE 54 0 0 24 Apr 2025
Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-based Agents Hanrong Zhang Jingyuan Huang Kai Mei Yifei Yao Zhenting Wang Chenlu Zhan Hongwei Wang Yongfeng Zhang AAML LLMAG ELM 34 17 0 03 Oct 2024
Perception-guided Jailbreak against Text-to-Image Models Yihao Huang Le Liang Tianlin Li Xiaojun Jia Run Wang Weikai Miao G. Pu Yang Liu 24 6 0 20 Aug 2024
Knowledge Editing for Large Language Models: A Survey Song Wang Yaochen Zhu Haochen Liu Zaiyi Zheng Chen Chen Jundong Li KELM 66 127 0 24 Oct 2023
Can LMs Learn New Entities from Descriptions? Challenges in Propagating Injected Knowledge Yasumasa Onoe Michael J.Q. Zhang Shankar Padmanabhan Greg Durrett Eunsol Choi KELM 201 73 0 02 May 2023
Poisoning Language Models During Instruction Tuning Alexander Wan Eric Wallace Sheng Shen Dan Klein SILM 90 124 0 01 May 2023
Defending Against Stealthy Backdoor Attacks Sangeet Sagar Abhinav Bhatt Abhijith Srinivas Bidaralli AAML 38 3 0 27 May 2022
Fast Model Editing at Scale E. Mitchell Charles Lin Antoine Bosselut Chelsea Finn Christopher D. Manning KELM 217 254 0 21 Oct 2021