BadNL: Backdoor Attacks against NLP Models with Semantic-preserving Improvements

1 June 2020

Michael Backes

Papers citing "BadNL: Backdoor Attacks against NLP Models with Semantic-preserving Improvements"

31 / 31 papers shown

Title
ChainMarks: Securing DNN Watermark with Cryptographic Chain Brian Choi Shu Wang Isabelle Choi Kun Sun 46 0 0 08 May 2025
BadLingual: A Novel Lingual-Backdoor Attack against Large Language Models Z. Wang Hongwei Li Rui Zhang Wenbo Jiang Kangjie Chen Tianwei Zhang Qingchuan Zhao Guowen Xu AAML 41 0 0 06 May 2025
A Chaos Driven Metric for Backdoor Attack Detection Hema Karnam Surendrababu Nithin Nagaraj AAML 36 0 0 06 May 2025
Backdoor Attacks Against Patch-based Mixture of Experts Cedric Chan Jona te Lintelo S. Picek AAML MoE 114 0 0 03 May 2025
ShadowCoT: Cognitive Hijacking for Stealthy Reasoning Backdoors in LLMs Gejian Zhao Hanzhou Wu Xinpeng Zhang Athanasios V. Vasilakos LRM 36 1 0 08 Apr 2025
Poisoned Source Code Detection in Code Models Ehab Ghannoum Mohammad Ghafari AAML 63 0 0 19 Feb 2025
When Backdoors Speak: Understanding LLM Backdoor Attacks Through Model-Generated Explanations Huaizhi Ge Yiming Li Qifan Wang Yongfeng Zhang Ruixiang Tang AAML SILM 72 0 0 19 Nov 2024
Backdooring Vision-Language Models with Out-Of-Distribution Data Weimin Lyu Jiachen Yao Saumya Gupta Lu Pang Tao Sun Lingjie Yi Lijie Hu Haibin Ling Chao Chen VLM AAML 57 2 0 02 Oct 2024
Context is the Key: Backdoor Attacks for In-Context Learning with Vision Transformers Gorka Abad S. Picek Lorenzo Cavallaro A. Urbieta SILM 39 0 0 06 Sep 2024
An LLM-Assisted Easy-to-Trigger Backdoor Attack on Code Completion Models: Injecting Disguised Vulnerabilities against Strong Detection Shenao Yan Shen Wang Yue Duan Hanbin Hong Kiho Lee Doowon Kim Yuan Hong AAML SILM 35 16 0 10 Jun 2024
OrderBkd: Textual backdoor attack through repositioning Irina Alekseevskaia Konstantin Arkhipenko 17 2 0 12 Feb 2024
Comprehensive Assessment of Jailbreak Attacks Against LLMs Junjie Chu Yugeng Liu Ziqing Yang Xinyue Shen Michael Backes Yang Zhang AAML 33 65 0 08 Feb 2024
Efficient Trigger Word Insertion Yueqi Zeng Ziqiang Li Pengfei Xia Lei Liu Bin Li AAML 19 5 0 23 Nov 2023
Test-time Backdoor Mitigation for Black-Box Large Language Models with Defensive Demonstrations Wenjie Mo Jiashu Xu Qin Liu Jiong Wang Jun Yan Chaowei Xiao Muhao Chen Muhao Chen AAML 54 17 0 16 Nov 2023
"Do Anything Now": Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models Xinyue Shen Z. Chen Michael Backes Yun Shen Yang Zhang SILM 33 243 0 07 Aug 2023
NOTABLE: Transferable Backdoor Attacks Against Prompt-based NLP Models Kai Mei Zheng Li Zhenting Wang Yang Zhang Shiqing Ma AAML SILM 19 48 0 28 May 2023
A Survey of Safety and Trustworthiness of Large Language Models through the Lens of Verification and Validation Xiaowei Huang Wenjie Ruan Wei Huang Gao Jin Yizhen Dong ... Sihao Wu Peipei Xu Dengyu Wu André Freitas Mustafa A. Mustafa ALM 27 81 0 19 May 2023
Text-to-Image Diffusion Models can be Easily Backdoored through Multimodal Data Poisoning Shengfang Zhai Yinpeng Dong Qingni Shen Shih-Chieh Pu Yuejian Fang Hang Su 30 70 0 07 May 2023
CleanCLIP: Mitigating Data Poisoning Attacks in Multimodal Contrastive Learning Hritik Bansal Nishad Singhi Yu Yang Fan Yin Aditya Grover Kai-Wei Chang AAML 29 41 0 06 Mar 2023
Detecting software vulnerabilities using Language Models Marwan Omar 24 11 0 23 Feb 2023
Prompt Stealing Attacks Against Text-to-Image Generation Models Xinyue Shen Y. Qu Michael Backes Yang Zhang 22 31 0 20 Feb 2023
Attacks in Adversarial Machine Learning: A Systematic Survey from the Life-cycle Perspective Baoyuan Wu Zihao Zhu Li Liu Qingshan Liu Zhaofeng He Siwei Lyu AAML 44 21 0 19 Feb 2023
RobustNLP: A Technique to Defend NLP Models Against Backdoor Attacks Marwan Omar SILM AAML 23 0 0 18 Feb 2023
Backdoor Learning for NLP: Recent Advances, Challenges, and Future Research Directions Marwan Omar SILM AAML 23 20 0 14 Feb 2023
SoK: A Systematic Evaluation of Backdoor Trigger Characteristics in Image Classification Gorka Abad Jing Xu Stefanos Koffas Behrad Tajalli S. Picek Mauro Conti AAML 51 5 0 03 Feb 2023
BDMMT: Backdoor Sample Detection for Language Models through Model Mutation Testing Jiali Wei Ming Fan Wenjing Jiao Wuxia Jin Ting Liu AAML 24 10 0 25 Jan 2023
Backdoor Attacks Against Dataset Distillation Yugeng Liu Zheng Li Michael Backes Yun Shen Yang Zhang DD 31 27 0 03 Jan 2023
Generative Poisoning Using Random Discriminators Dirren van Vlijmen A. Kolmus Zhuoran Liu Zhengyu Zhao Martha Larson 15 2 0 02 Nov 2022
Detecting Backdoors in Deep Text Classifiers Youyan Guo Jun Wang Trevor Cohn SILM 22 1 0 11 Oct 2022
Property Inference Attacks Against GANs Junhao Zhou Yufei Chen Chao Shen Yang Zhang AAML MIACV 22 52 0 15 Nov 2021
Dynamic Backdoor Attacks Against Machine Learning Models A. Salem Rui Wen Michael Backes Shiqing Ma Yang Zhang AAML 16 269 0 07 Mar 2020