Constrained Optimization with Dynamic Bound-scaling for Effective
NLPBackdoor Defense

Constrained Optimization with Dynamic Bound-scaling for Effective NLPBackdoor Defense

International Conference on Machine Learning (ICML), 2022

11 February 2022

ArXiv (abs)PDF HTML

Papers citing "Constrained Optimization with Dynamic Bound-scaling for Effective NLPBackdoor Defense"

18 / 18 papers shown

Title
Rounding-Guided Backdoor Injection in Deep Learning Model Quantization Xiangxiang Chen Peixin Zhang Jun Sun Wenhai Wang Jingyi Wang AAML 86 0 0 05 Oct 2025
Unmasking Backdoors: An Explainable Defense via Gradient-Attention Anomaly Scoring for Pre-trained Language Models Anindya Sundar Das Kangjie Chen M. Bhuyan SILM AAML 123 0 0 05 Oct 2025
A Single Character can Make or Break Your LLM Evals Jingtong Su Jianyu Zhang Karen Ullrich Léon Bottou Mark Ibrahim 65 2 0 02 Oct 2025
Inverting Trojans in LLMs Zhengxing Li Guangmingmei Yang Jayaram Raghuram David J. Miller G. Kesidis LLMSV 44 0 0 19 Sep 2025
Paladin: Defending LLM-enabled Phishing Emails with a New Trigger-Tag Paradigm Yan Pang Wenlong Meng Xiaojing Liao Tianhao Wang 153 2 0 08 Sep 2025
Backdoor Samples Detection Based on Perturbation Discrepancy Consistency in Pre-trained Language ModelsNeural Networks (NN), 2025 Zuquan Peng Jianming Fu Lixin Zou Li Zheng Yanzhen Ren Guojun Peng AAML 72 0 0 30 Aug 2025
Probe before You Talk: Towards Black-box Defense against Backdoor Unalignment for Large Language ModelsInternational Conference on Learning Representations (ICLR), 2025 Biao Yi Tiansheng Huang Sishuo Chen Tong Li Zheli Liu Zhixuan Chu Yiming Li AAML 191 19 0 19 Jun 2025
CROW: Eliminating Backdoors from Large Language Models via Internal Consistency Regularization Nay Myat Min Long H. Pham Yige Li Jun Sun AAML 365 10 0 18 Nov 2024
LOTUS: Evasive and Resilient Backdoor Attacks through Sub-Partitioning Shuyang Cheng Guanhong Tao Yingqi Liu Guangyu Shen Shengwei An Shiwei Feng Xiangzhe Xu Kaiyuan Zhang Shiqing Ma Xiangyu Zhang AAML 185 9 0 25 Mar 2024
Rapid Optimization for Jailbreaking LLMs via Subconscious Exploitation and Echopraxia Guangyu Shen Shuyang Cheng Kai-xian Zhang Guanhong Tao Shengwei An Lu Yan Zhuo Zhang Shiqing Ma Xiangyu Zhang 168 16 0 08 Feb 2024
TIJO: Trigger Inversion with Joint Optimization for Defending Multimodal Backdoored ModelsIEEE International Conference on Computer Vision (ICCV), 2023 Indranil Sur Karan Sikka Matthew Walmer K. Koneripalli Anirban Roy Xiaoyu Lin Ajay Divakaran Susmit Jha 143 12 0 07 Aug 2023
ParaFuzz: An Interpretability-Driven Technique for Detecting Poisoned Samples in NLPNeural Information Processing Systems (NeurIPS), 2023 Lu Yan Zhuo Zhang Guanhong Tao Kaiyuan Zhang Xuan Chen Guangyu Shen Xiangyu Zhang AAML SILM 208 31 0 04 Aug 2023
NOTABLE: Transferable Backdoor Attacks Against Prompt-based NLP ModelsAnnual Meeting of the Association for Computational Linguistics (ACL), 2023 Kai Mei Zheng Li Zhenting Wang Yang Zhang Shiqing Ma AAML SILM 159 55 0 28 May 2023
Exploring the Landscape of Machine Unlearning: A Comprehensive Survey and TaxonomyIEEE Transactions on Neural Networks and Learning Systems (TNNLS), 2023 T. Shaik Xiaohui Tao Haoran Xie Lin Li Xiaofeng Zhu Qingyuan Li MU 440 48 0 10 May 2023
Backdoor Vulnerabilities in Normally Trained Deep Learning Models Guanhong Tao Zhenting Wang Shuyang Cheng Shiqing Ma Shengwei An Yingqi Liu Guangyu Shen Zhuo Zhang Yunshu Mao Xiangyu Zhang SILM 163 18 0 29 Nov 2022
Rickrolling the Artist: Injecting Backdoors into Text Encoders for Text-to-Image SynthesisIEEE International Conference on Computer Vision (ICCV), 2022 Lukas Struppek Dominik Hintersdorf Kristian Kersting SILM 429 51 0 04 Nov 2022
Rethinking the Reverse-engineering of Trojan TriggersNeural Information Processing Systems (NeurIPS), 2022 Zhenting Wang Kai Mei Hailun Ding Juan Zhai Shiqing Ma 136 50 0 27 Oct 2022
Training with More Confidence: Mitigating Injected and Natural Backdoors During TrainingNeural Information Processing Systems (NeurIPS), 2022 Zhenting Wang Hailun Ding Juan Zhai Shiqing Ma AAML 259 55 0 13 Feb 2022