Test-time Backdoor Mitigation for Black-Box Large Language Models with Defensive Demonstrations

16 November 2023

Wenjie Mo

Papers citing "Test-time Backdoor Mitigation for Black-Box Large Language Models with Defensive Demonstrations"

24 / 24 papers shown

Title
Exploring the Role of Large Language Models in Cybersecurity: A Systematic Survey Shuang Tian Tao Zhang J. Liu Jiacheng Wang Xuangou Wu ... Ruichen Zhang W. Zhang Zhenhui Yuan Shiwen Mao Dong In Kim 48 0 0 22 Apr 2025
Mechanistic Anomaly Detection for "Quirky" Language Models David Johnston Arkajyoti Chakraborty Nora Belrose 19 0 0 09 Apr 2025
Retrieval-Augmented Purifier for Robust LLM-Empowered Recommendation Liangbo Ning Wenqi Fan Qing Li AAML 25 1 0 03 Apr 2025
BadJudge: Backdoor Vulnerabilities of LLM-as-a-Judge Terry Tong Fei-Yue Wang Zhe Zhao M. Chen AAML ELM 32 1 0 01 Mar 2025
Mitigating Backdoor Threats to Large Language Models: Advancement and Challenges Qin Liu Wenjie Mo Terry Tong Jiashu Xu Fei Wang Chaowei Xiao Muhao Chen AAML 18 1 0 30 Sep 2024
Rethinking Backdoor Detection Evaluation for Language Models Jun Yan Wenjie Jacky Mo Xiang Ren Robin Jia ELM 27 1 0 31 Aug 2024
Unique Security and Privacy Threats of Large Language Model: A Comprehensive Survey Shang Wang Tianqing Zhu Bo Liu Ming Ding Xu Guo Dayong Ye Wanlei Zhou Philip S. Yu PILM 44 9 0 12 Jun 2024
Learning to Poison Large Language Models During Instruction Tuning Yao Qiang Xiangyu Zhou Saleh Zare Zade Mohammad Amin Roshani Douglas Zytko Dongxiao Zhu AAML SILM 19 20 0 21 Feb 2024
Universal Vulnerabilities in Large Language Models: Backdoor Attacks for In-context Learning Shuai Zhao Meihuizi Jia Anh Tuan Luu Fengjun Pan Jinming Wen AAML 11 26 0 11 Jan 2024
A Survey on Large Language Model (LLM) Security and Privacy: The Good, the Bad, and the Ugly Yifan Yao Jinhao Duan Kaidi Xu Yuanfang Cai Eric Sun Yue Zhang PILM ELM 16 463 0 04 Dec 2023
Hijacking Large Language Models via Adversarial In-Context Learning Yao Qiang Xiangyu Zhou Dongxiao Zhu 12 27 0 16 Nov 2023
Cognitive Overload: Jailbreaking Large Language Models with Overloaded Logical Thinking Nan Xu Fei Wang Ben Zhou Bangzheng Li Chaowei Xiao Muhao Chen 11 40 0 16 Nov 2023
Instructions as Backdoors: Backdoor Vulnerabilities of Instruction Tuning for Large Language Models Jiashu Xu Mingyu Derek Ma Fei Wang Chaowei Xiao Muhao Chen SILM 23 64 0 24 May 2023
Defending against Insertion-based Textual Backdoor Attacks via Attribution Jiazhao Li Zhuofeng Wu Wei Ping Chaowei Xiao V. Vydiswaran 32 13 0 03 May 2023
Large Language Model Is Not a Good Few-shot Information Extractor, but a Good Reranker for Hard Samples! Yubo Ma Yixin Cao YongChing Hong Aixin Sun RALM 71 132 0 15 Mar 2023
ReAct: Synergizing Reasoning and Acting in Language Models Shunyu Yao Jeffrey Zhao Dian Yu Nan Du Izhak Shafran Karthik Narasimhan Yuan Cao LLMAG ReLM LRM 208 1,100 0 06 Oct 2022
Large Language Models are Zero-Shot Reasoners Takeshi Kojima S. Gu Machel Reid Yutaka Matsuo Yusuke Iwasawa ReLM LRM 291 2,712 0 24 May 2022
Self-Consistency Improves Chain of Thought Reasoning in Language Models Xuezhi Wang Jason W. Wei Dale Schuurmans Quoc Le Ed H. Chi Sharan Narang Aakanksha Chowdhery Denny Zhou ReLM BDL LRM AI4CE 277 3,163 0 21 Mar 2022
PromptSource: An Integrated Development Environment and Repository for Natural Language Prompts Stephen H. Bach Victor Sanh Zheng-Xin Yong Albert Webson Colin Raffel ... Khalid Almubarak Xiangru Tang Dragomir R. Radev Mike Tian-Jian Jiang Alexander M. Rush VLM 212 274 0 02 Feb 2022
Mind the Style of Text! Adversarial and Backdoor Attacks Based on Text Style Transfer Fanchao Qi Yangyi Chen Xurui Zhang Mukai Li Zhiyuan Liu Maosong Sun AAML SILM 75 171 0 14 Oct 2021
Fantastically Ordered Prompts and Where to Find Them: Overcoming Few-Shot Prompt Order Sensitivity Yao Lu Max Bartolo Alastair Moore Sebastian Riedel Pontus Stenetorp AILaw LRM 268 882 0 18 Apr 2021
Mitigating backdoor attacks in LSTM-based Text Classification Systems by Backdoor Keyword Identification Chuanshuai Chen Jiazhu Dai SILM 43 102 0 11 Jul 2020
Adversarial Example Generation with Syntactically Controlled Paraphrase Networks Mohit Iyyer John Wieting Kevin Gimpel Luke Zettlemoyer AAML GAN 173 708 0 17 Apr 2018
Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks Chelsea Finn Pieter Abbeel Sergey Levine OOD 234 9,525 0 09 Mar 2017