BadActs: A Universal Backdoor Defense in the Activation Space

18 May 2024

Papers citing "BadActs: A Universal Backdoor Defense in the Activation Space"

8 / 8 papers shown

Title
Defending against Insertion-based Textual Backdoor Attacks via Attribution Jiazhao Li Zhuofeng Wu Wei Ping Chaowei Xiao V. Vydiswaran 40 23 0 03 May 2023
Poisoning Language Models During Instruction Tuning Alexander Wan Eric Wallace Sheng Shen Dan Klein SILM 90 124 0 01 May 2023
TrojText: Test-time Invisible Textual Trojan Insertion Qiang Lou Ye Liu Bo Feng 24 23 0 03 Mar 2023
MM-BD: Post-Training Detection of Backdoor Attacks with Arbitrary Backdoor Pattern Types Using a Maximum Margin Statistic Hang Wang Zhen Xiang David J. Miller G. Kesidis AAML 25 40 0 13 May 2022
A Study of the Attention Abnormality in Trojaned BERTs Weimin Lyu Songzhu Zheng Teng Ma Chao Chen 51 53 0 13 May 2022
Mind the Style of Text! Adversarial and Backdoor Attacks Based on Text Style Transfer Fanchao Qi Yangyi Chen Xurui Zhang Mukai Li Zhiyuan Liu Maosong Sun AAML SILM 77 171 0 14 Oct 2021
Revisiting Mahalanobis Distance for Transformer-Based Out-of-Domain Detection Alexander Podolskiy Dmitry Lipin A. Bout Ekaterina Artemova Irina Piontkovskaya OODD 84 82 0 11 Jan 2021
Mitigating backdoor attacks in LSTM-based Text Classification Systems by Backdoor Keyword Identification Chuanshuai Chen Jiazhu Dai SILM 48 126 0 11 Jul 2020