WeDef: Weakly Supervised Backdoor Defense for Text Classification

WeDef: Weakly Supervised Backdoor Defense for Text Classification

24 May 2022

Papers citing "WeDef: Weakly Supervised Backdoor Defense for Text Classification"

15 / 15 papers shown

Title
NLP Security and Ethics, in the Wild Heather Lent Erick Galinkin Yiyi Chen Jens Myrup Pedersen Leon Derczynski Johannes Bjerva SILM 42 0 0 09 Apr 2025
Gracefully Filtering Backdoor Samples for Generative Large Language Models without Retraining Zongru Wu Pengzhou Cheng Lingyong Fang Zhuosheng Zhang Gongshen Liu AAML SILM 73 0 0 03 Dec 2024
Data-centric NLP Backdoor Defense from the Lens of Memorization Zhenting Wang Zhizhi Wang Mingyu Jin Mengnan Du Juan Zhai Shiqing Ma 29 3 0 21 Sep 2024
Incubating Text Classifiers Following User Instruction with Nothing but LLM Letian Peng Jingbo Shang 38 3 0 16 Apr 2024
Two Heads are Better than One: Nested PoE for Robust Defense Against Multi-Backdoors Victoria Graf Qin Liu Muhao Chen AAML 27 8 0 02 Apr 2024
Learning to Poison Large Language Models During Instruction Tuning Yao Qiang Xiangyu Zhou Saleh Zare Zade Mohammad Amin Roshani Douglas Zytko Dongxiao Zhu AAML SILM 32 20 0 21 Feb 2024
Defending Against Weight-Poisoning Backdoor Attacks for Parameter-Efficient Fine-Tuning Shuai Zhao Leilei Gan Anh Tuan Luu Jie Fu Lingjuan Lyu Meihuizi Jia Jinming Wen AAML 21 22 0 19 Feb 2024
Acquiring Clean Language Models from Backdoor Poisoned Datasets by Downscaling Frequency Space Zongru Wu Zhuosheng Zhang Pengzhou Cheng Gongshen Liu AAML 39 4 0 19 Feb 2024
Test-time Backdoor Mitigation for Black-Box Large Language Models with Defensive Demonstrations Wenjie Mo Jiashu Xu Qin Liu Jiong Wang Jun Yan Chaowei Xiao Muhao Chen Muhao Chen AAML 54 17 0 16 Nov 2023
Backdoor Attacks and Countermeasures in Natural Language Processing Models: A Comprehensive Security Review Pengzhou Cheng Zongru Wu Wei Du Haodong Zhao Wei Lu Gongshen Liu SILM AAML 18 17 0 12 Sep 2023
TIJO: Trigger Inversion with Joint Optimization for Defending Multimodal Backdoored Models Indranil Sur Karan Sikka Matthew Walmer K. Koneripalli Anirban Roy Xiaoyu Lin Ajay Divakaran Susmit Jha 22 8 0 07 Aug 2023
From Shortcuts to Triggers: Backdoor Defense with Denoised PoE Qin Liu Fei Wang Chaowei Xiao Muhao Chen AAML 24 21 0 24 May 2023
BFClass: A Backdoor-free Text Classification Framework Zichao Li Dheeraj Mekala Chengyu Dong Jingbo Shang SILM 56 27 0 22 Sep 2021
Mitigating backdoor attacks in LSTM-based Text Classification Systems by Backdoor Keyword Identification Chuanshuai Chen Jiazhu Dai SILM 53 126 0 11 Jul 2020
Clean-Label Backdoor Attacks on Video Recognition Models Shihao Zhao Xingjun Ma Xiang Zheng James Bailey Jingjing Chen Yu-Gang Jiang AAML 185 274 0 06 Mar 2020