Frequency-Guided Word Substitutions for Detecting Textual Adversarial Examples

13 April 2020

Papers citing "Frequency-Guided Word Substitutions for Detecting Textual Adversarial Examples"

21 / 21 papers shown

Title
One Perturbation is Enough: On Generating Universal Adversarial Perturbations against Vision-Language Pre-training Models Hao Fang Jiawei Kong Wenbo Yu Bin Chen Jiawei Li Hao Wu Ke Xu Ke Xu AAML VLM 40 13 0 08 Jun 2024
Toward Stronger Textual Attack Detectors Pierre Colombo Marine Picot Nathan Noiry Guillaume Staerman Pablo Piantanida 44 5 0 21 Oct 2023
The Trickle-down Impact of Reward (In-)consistency on RLHF Lingfeng Shen Sihao Chen Linfeng Song Lifeng Jin Baolin Peng Haitao Mi Daniel Khashabi Dong Yu 27 21 0 28 Sep 2023
Text-CRS: A Generalized Certified Robustness Framework against Textual Adversarial Attacks Xinyu Zhang Hanbin Hong Yuan Hong Peng Huang Binghui Wang Zhongjie Ba Kui Ren SILM 29 18 0 31 Jul 2023
From Adversarial Arms Race to Model-centric Evaluation: Motivating a Unified Automatic Robustness Evaluation Framework Yangyi Chen Hongcheng Gao Ganqu Cui Lifan Yuan Dehan Kong ... Longtao Huang H. Xue Zhiyuan Liu Maosong Sun Heng Ji AAML ELM 27 6 0 29 May 2023
TextDefense: Adversarial Text Detection based on Word Importance Entropy Lujia Shen Xuhong Zhang S. Ji Yuwen Pu Chunpeng Ge Xing Yang Yanghe Feng AAML 15 8 0 12 Feb 2023
TextShield: Beyond Successfully Detecting Adversarial Sentences in Text Classification Lingfeng Shen Ze Zhang Haiyun Jiang Ying Chen AAML 39 5 0 03 Feb 2023
ADDMU: Detection of Far-Boundary Adversarial Examples with Data and Model Uncertainty Estimation Fan Yin Yao Li Cho-Jui Hsieh Kai-Wei Chang AAML 60 4 0 22 Oct 2022
TCAB: A Large-Scale Text Classification Attack Benchmark Kalyani Asthana Zhouhang Xie Wencong You Adam Noack Jonathan Brophy Sameer Singh Daniel Lowd 33 3 0 21 Oct 2022
Identifying Human Strategies for Generating Word-Level Adversarial Examples Maximilian Mozes Bennett Kleinberg Lewis D. Griffin AAML 23 1 0 20 Oct 2022
Detecting Textual Adversarial Examples Based on Distributional Characteristics of Data Representations Na Liu Mark Dras Wei Emma Zhang AAML 22 6 0 29 Apr 2022
"That Is a Suspicious Reaction!": Interpreting Logits Variation to Detect NLP Adversarial Attacks Edoardo Mosca Shreyash Agarwal Javier Rando Georg Groh AAML 25 30 0 10 Apr 2022
Adversarial Training for Improving Model Robustness? Look at Both Prediction and Interpretation Hanjie Chen Yangfeng Ji OOD AAML VLM 24 21 0 23 Mar 2022
Detection of Word Adversarial Examples in Text Classification: Benchmark and Baseline via Robust Density Estimation Kiyoon Yoo Jangho Kim Jiho Jang Nojun Kwak 22 39 0 03 Mar 2022
Identifying Adversarial Attacks on Text Classifiers Zhouhang Xie Jonathan Brophy Adam Noack Wencong You Kalyani Asthana Carter Perkins Sabrina Reis Sameer Singh Daniel Lowd AAML 19 9 0 21 Jan 2022
TREATED:Towards Universal Defense against Textual Adversarial Attacks Bin Zhu Zhaoquan Gu Le Wang Zhihong Tian AAML 28 8 0 13 Sep 2021
Certified Robustness to Adversarial Word Substitutions Robin Jia Aditi Raghunathan Kerem Göksel Percy Liang AAML 183 290 0 03 Sep 2019
Generating Natural Language Adversarial Examples M. Alzantot Yash Sharma Ahmed Elgohary Bo-Jhang Ho Mani B. Srivastava Kai-Wei Chang AAML 245 914 0 21 Apr 2018
Adversarial Example Generation with Syntactically Controlled Paraphrase Networks Mohit Iyyer John Wieting Kevin Gimpel Luke Zettlemoyer AAML GAN 196 711 0 17 Apr 2018
Adversarial examples in the physical world Alexey Kurakin Ian Goodfellow Samy Bengio SILM AAML 287 5,835 0 08 Jul 2016
Convolutional Neural Networks for Sentence Classification Yoon Kim AILaw VLM 255 13,364 0 25 Aug 2014