ONION: A Simple and Effective Defense Against Textual Backdoor Attacks

20 November 2020

Maosong Sun

Papers citing "ONION: A Simple and Effective Defense Against Textual Backdoor Attacks"

50 / 164 papers shown

Title
On the Trustworthiness Landscape of State-of-the-art Generative Models: A Survey and Outlook Mingyuan Fan Chengyu Wang Cen Chen Yang Liu Jun Huang HILM 31 3 0 31 Jul 2023
Multi-target Backdoor Attacks for Code Pre-trained Models Yanzhou Li Shangqing Liu Kangjie Chen Xiaofei Xie Tianwei Zhang Yang Liu AAML SILM 14 23 0 14 Jun 2023
Adversarial Clean Label Backdoor Attacks and Defenses on Text Classification Systems Ashim Gupta Amrith Krishna AAML 14 16 0 31 May 2023
NOTABLE: Transferable Backdoor Attacks Against Prompt-based NLP Models Kai Mei Zheng Li Zhenting Wang Yang Zhang Shiqing Ma AAML SILM 26 48 0 28 May 2023
IMBERT: Making BERT Immune to Insertion-based Backdoor Attacks Xuanli He Jun Wang Benjamin I. P. Rubinstein Trevor Cohn SILM 23 12 0 25 May 2023
From Shortcuts to Triggers: Backdoor Defense with Denoised PoE Qin Liu Fei Wang Chaowei Xiao Muhao Chen AAML 24 21 0 24 May 2023
Debiasing Made State-of-the-art: Revisiting the Simple Seed-based Weak Supervision for Text Classification Chengyu Dong Zihan Wang Jingbo Shang 18 4 0 24 May 2023
Instructions as Backdoors: Backdoor Vulnerabilities of Instruction Tuning for Large Language Models Jiashu Xu Mingyu Derek Ma Fei Wang Chaowei Xiao Muhao Chen SILM 36 74 0 24 May 2023
Mitigating Backdoor Poisoning Attacks through the Lens of Spurious Correlation Xuanli He Qiongkai Xu Jun Wang Benjamin I. P. Rubinstein Trevor Cohn AAML 24 18 0 19 May 2023
UOR: Universal Backdoor Attacks on Pre-trained Language Models Wei Du Peixuan Li Bo-wen Li Haodong Zhao Gongshen Liu AAML 37 7 0 16 May 2023
Two-in-One: A Model Hijacking Attack Against Text Generation Models Waiman Si Michael Backes Yang Zhang A. Salem SILM 16 22 0 12 May 2023
Diffusion Theory as a Scalpel: Detecting and Purifying Poisonous Dimensions in Pre-trained Language Models Caused by Backdoor or Bias Zhiyuan Zhang Deli Chen Hao Zhou Fandong Meng Jie Zhou Xu Sun 28 5 0 08 May 2023
Text-to-Image Diffusion Models can be Easily Backdoored through Multimodal Data Poisoning Shengfang Zhai Yinpeng Dong Qingni Shen Shih-Chieh Pu Yuejian Fang Hang Su 30 70 0 07 May 2023
Backdoor Learning on Sequence to Sequence Models Lichang Chen Minhao Cheng Heng-Chiao Huang SILM 52 18 0 03 May 2023
Defending against Insertion-based Textual Backdoor Attacks via Attribution Jiazhao Li Zhuofeng Wu Wei Ping Chaowei Xiao V. Vydiswaran 40 23 0 03 May 2023
Prompt as Triggers for Backdoor Attack: Examining the Vulnerability in Language Models Shuai Zhao Jinming Wen Anh Tuan Luu J. Zhao Jie Fu SILM 57 89 0 02 May 2023
ChatGPT as an Attack Tool: Stealthy Textual Backdoor Attack via Blackbox Generative Model Trigger Jiazhao Li Yijin Yang Zhuofeng Wu V. Vydiswaran Chaowei Xiao SILM 44 42 0 27 Apr 2023
Backdoor Attacks with Input-unique Triggers in NLP Xukun Zhou Jiwei Li Tianwei Zhang Lingjuan Lyu Muqiao Yang Jun He SILM AAML 22 9 0 25 Mar 2023
NCL: Textual Backdoor Defense Using Noise-augmented Contrastive Learning Shengfang Zhai Qingni Shen Xiaoyi Chen Weilong Wang Cong Li Yuejian Fang Zhonghai Wu AAML 37 8 0 03 Mar 2023
Backdoor Learning for NLP: Recent Advances, Challenges, and Future Research Directions Marwan Omar SILM AAML 23 20 0 14 Feb 2023
BDMMT: Backdoor Sample Detection for Language Models through Model Mutation Testing Jiali Wei Ming Fan Wenjing Jiao Wuxia Jin Ting Liu AAML 24 10 0 25 Jan 2023
Stealthy Backdoor Attack for Code Models Zhou Yang Bowen Xu Jie M. Zhang Hong Jin Kang Jieke Shi Junda He David Lo AAML 19 65 0 06 Jan 2023
On the Security Vulnerabilities of Text-to-SQL Models Xutan Peng Yipeng Zhang Jingfeng Yang Mark Stevenson SILM 23 10 0 28 Nov 2022
BadPrompt: Backdoor Attacks on Continuous Prompts Xiangrui Cai Haidong Xu Sihan Xu Ying Zhang Xiaojie Yuan SILM 23 59 0 27 Nov 2022
A Survey on Backdoor Attack and Defense in Natural Language Processing Xuan Sheng Zhaoyang Han Piji Li Xiangmao Chang SILM 19 19 0 22 Nov 2022
Robust Smart Home Face Recognition under Starving Federated Data Jaechul Roh Yajun Fang FedML CVBM AAML 21 0 0 10 Nov 2022
MSDT: Masked Language Model Scoring Defense in Text Domain Jaechul Roh Minhao Cheng Yajun Fang AAML 15 1 0 10 Nov 2022
Rickrolling the Artist: Injecting Backdoors into Text Encoders for Text-to-Image Synthesis Lukas Struppek Dominik Hintersdorf Kristian Kersting SILM 22 35 0 04 Nov 2022
Poison Attack and Defense on Deep Source Code Processing Models Jia Li Zhuo Li Huangzhao Zhang Ge Li Zhi Jin Xing Hu Xin Xia AAML 33 16 0 31 Oct 2022
Fine-mixing: Mitigating Backdoors in Fine-tuned Language Models Zhiyuan Zhang Lingjuan Lyu Xingjun Ma Chenguang Wang Xu Sun AAML 23 41 0 18 Oct 2022
Expose Backdoors on the Way: A Feature-Based Efficient Defense against Textual Backdoor Attacks Sishuo Chen Wenkai Yang Zhiyuan Zhang Xiaohan Bi Xu Sun SILM AAML 24 23 0 14 Oct 2022
Dim-Krum: Backdoor-Resistant Federated Learning for NLP with Dimension-wise Krum-Based Aggregation Zhiyuan Zhang Qi Su Xu Sun FedML 21 12 0 13 Oct 2022
Detecting Backdoors in Deep Text Classifiers Youyan Guo Jun Wang Trevor Cohn SILM 22 1 0 11 Oct 2022
CATER: Intellectual Property Protection on Text Generation APIs via Conditional Watermarks Xuanli He Qiongkai Xu Yi Zeng Lingjuan Lyu Fangzhao Wu Jiwei Li R. Jia WaLM 183 71 0 19 Sep 2022
DeepHider: A Covert NLP Watermarking Framework Based on Multi-task Learning Long Dai Jiarong Mao Xuefeng Fan Xiaoyi Zhou 11 2 0 09 Aug 2022
Attention Hijacking in Trojan Transformers Weimin Lyu Songzhu Zheng Teng Ma Haibin Ling Chao Chen 27 6 0 09 Aug 2022
BackdoorBench: A Comprehensive Benchmark of Backdoor Learning Baoyuan Wu Hongrui Chen Mingda Zhang Zihao Zhu Shaokui Wei Danni Yuan Chaoxiao Shen ELM AAML 23 138 0 25 Jun 2022
A Unified Evaluation of Textual Backdoor Learning: Frameworks and Benchmarks Ganqu Cui Lifan Yuan Bingxiang He Yangyi Chen Zhiyuan Liu Maosong Sun AAML ELM SILM 24 68 0 17 Jun 2022
Defending Against Stealthy Backdoor Attacks Sangeet Sagar Abhinav Bhatt Abhijith Srinivas Bidaralli AAML 41 3 0 27 May 2022
BITE: Textual Backdoor Attacks with Iterative Trigger Injection Jun Yan Vansh Gupta Xiang Ren SILM 23 46 0 25 May 2022
WeDef: Weakly Supervised Backdoor Defense for Text Classification Lesheng Jin Zihan Wang Jingbo Shang AAML 13 14 0 24 May 2022
A Study of the Attention Abnormality in Trojaned BERTs Weimin Lyu Songzhu Zheng Teng Ma Chao Chen 51 56 0 13 May 2022
Wild Patterns Reloaded: A Survey of Machine Learning Security against Training Data Poisoning Antonio Emanuele Cinà Kathrin Grosse Ambra Demontis Sebastiano Vascon Werner Zellinger Bernhard A. Moser Alina Oprea Battista Biggio Marcello Pelillo Fabio Roli AAML 17 116 0 04 May 2022
Exploring the Universal Vulnerability of Prompt-based Learning Paradigm Lei Xu Yangyi Chen Ganqu Cui Hongcheng Gao Zhiyuan Liu SILM VPVLM 17 71 0 11 Apr 2022
Backdoor Attack against NLP models with Robustness-Aware Perturbation defense Shaik Mohammed Maqsood Viveros Manuela Ceron Addluri GowthamKrishna SILM 19 4 0 08 Apr 2022
Resurrecting Trust in Facial Recognition: Mitigating Backdoor Attacks in Face Recognition to Prevent Potential Privacy Breaches Reena Zelenkova J. Swallow Pathum Chamikara Mahawaga Arachchige Dongxi Liu Mohan Baruwal Chhetri S. Çamtepe M. Grobler Mahathir Almashor AAML 14 2 0 18 Feb 2022
Threats to Pre-trained Language Models: Survey and Taxonomy Shangwei Guo Chunlong Xie Jiwei Li Lingjuan Lyu Tianwei Zhang PILM 27 29 0 14 Feb 2022
Constrained Optimization with Dynamic Bound-scaling for Effective NLPBackdoor Defense Guangyu Shen Yingqi Liu Guanhong Tao Qiuling Xu Zhuo Zhang Shengwei An Shiqing Ma X. Zhang AAML 11 33 0 11 Feb 2022
Rethink the Evaluation for Attack Strength of Backdoor Attacks in Natural Language Processing Lingfeng Shen Haiyun Jiang Lemao Liu Shuming Shi ELM 6 1 0 09 Jan 2022
A General Framework for Defending Against Backdoor Attacks via Influence Graph Xiaofei Sun Jiwei Li Xiaoya Li Ziyao Wang Tianwei Zhang Han Qiu Fei Wu Chun Fan AAML TDI 24 5 0 29 Nov 2021