SAFER: A Structure-free Approach for Certified Robustness to Adversarial Word Substitutions

29 May 2020

Papers citing "SAFER: A Structure-free Approach for Certified Robustness to Adversarial Word Substitutions"

28 / 28 papers shown

Title
CERT-ED: Certifiably Robust Text Classification for Edit Distance Zhuoqun Huang Yipeng Wang Seunghee Shin Benjamin I. P. Rubinstein AAML 60 1 0 01 Aug 2024
DiffuseDef: Improved Robustness to Adversarial Attacks via Iterative Denoising Zhenhao Li Huichi Zhou Marek Rei Lucia Specia DiffM 41 0 0 28 Jun 2024
Exploiting the Layered Intrinsic Dimensionality of Deep Models for Practical Adversarial Training Enes Altinisik Safa Messaoud Husrev Taha Sencar Hassan Sajjad Sanjay Chawla AAML 53 0 0 27 May 2024
Advancing the Robustness of Large Language Models through Self-Denoised Smoothing Jiabao Ji Bairu Hou Zhen Zhang Guanhua Zhang Wenqi Fan Qing Li Yang Zhang Gaowen Liu Sijia Liu Shiyu Chang AAML 45 6 0 18 Apr 2024
Perturbation-Invariant Adversarial Training for Neural Ranking Models: Improving the Effectiveness-Robustness Trade-Off Yuansan Liu Ruqing Zhang Mingkun Zhang Wei Chen Maarten de Rijke Jiafeng Guo Xueqi Cheng AAML 35 6 0 16 Dec 2023
Certifying LLM Safety against Adversarial Prompting Aounon Kumar Chirag Agarwal Suraj Srinivas Aaron Jiaxun Li S. Feizi Himabindu Lakkaraju AAML 29 169 0 06 Sep 2023
Text-CRS: A Generalized Certified Robustness Framework against Textual Adversarial Attacks Xinyu Zhang Hanbin Hong Yuan Hong Peng Huang Binghui Wang Zhongjie Ba Kui Ren SILM 49 18 0 31 Jul 2023
Don't Retrain, Just Rewrite: Countering Adversarial Perturbations by Rewriting Text Ashim Gupta Carter Blum Temma Choji Yingjie Fei Shalin S Shah Alakananda Vempala Vivek Srikumar AAML 41 9 0 25 May 2023
A Survey of Safety and Trustworthiness of Large Language Models through the Lens of Verification and Validation Xiaowei Huang Wenjie Ruan Wei Huang Gao Jin Yizhen Dong ... Sihao Wu Peipei Xu Dengyu Wu André Freitas Mustafa A. Mustafa ALM 52 83 0 19 May 2023
RS-Del: Edit Distance Robustness Certificates for Sequence Classifiers via Randomized Deletion Zhuoqun Huang Neil G. Marchant Keane Lucas Lujo Bauer O. Ohrimenko Benjamin I. P. Rubinstein AAML 32 15 0 31 Jan 2023
Impact of Adversarial Training on Robustness and Generalizability of Language Models Enes Altinisik Hassan Sajjad Husrev Taha Sencar Safa Messaoud Sanjay Chawla AAML 26 9 0 10 Nov 2022
Textual Manifold-based Defense Against Natural Language Adversarial Examples D. M. Nguyen Anh Tuan Luu AAML 32 17 0 05 Nov 2022
ADDMU: Detection of Far-Boundary Adversarial Examples with Data and Model Uncertainty Estimation Fan Yin Yao Li Cho-Jui Hsieh Kai-Wei Chang AAML 72 4 0 22 Oct 2022
Why Should Adversarial Perturbations be Imperceptible? Rethink the Research Paradigm in Adversarial NLP Yangyi Chen Hongcheng Gao Yuchen Zhang Fanchao Qi Longtao Huang Zhiyuan Liu Maosong Sun SILM 32 46 0 19 Oct 2022
Rethinking Textual Adversarial Defense for Pre-trained Language Models Jiayi Wang Rongzhou Bao Zhuosheng Zhang Hai Zhao AAML SILM 28 11 0 21 Jul 2022
Adversarial Training for Improving Model Robustness? Look at Both Prediction and Interpretation Hanjie Chen Yangfeng Ji OOD AAML VLM 36 21 0 23 Mar 2022
Distinguishing Non-natural from Natural Adversarial Samples for More Robust Pre-trained Language Model Jiayi Wang Rongzhou Bao Zhuosheng Zhang Hai Zhao AAML 29 4 0 19 Mar 2022
Identifying Adversarial Attacks on Text Classifiers Zhouhang Xie Jonathan Brophy Adam Noack Wencong You Kalyani Asthana Carter Perkins Sabrina Reis Sameer Singh Daniel Lowd AAML 31 9 0 21 Jan 2022
Robust Natural Language Processing: Recent Advances, Challenges, and Future Directions Marwan Omar Soohyeon Choi Daehun Nyang David A. Mohaisen 34 57 0 03 Jan 2022
Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of Language Models Wei Ping Chejian Xu Shuohang Wang Zhe Gan Yu Cheng Jianfeng Gao Ahmed Hassan Awadallah Yangqiu Song VLM ELM AAML 38 216 0 04 Nov 2021
Searching for an Effective Defender: Benchmarking Defense against Adversarial Word Substitution Zongyi Li Jianhan Xu Jiehang Zeng Linyang Li Xiaoqing Zheng Qi Zhang Kai-Wei Chang Cho-Jui Hsieh AAML 8 74 0 29 Aug 2021
On the Adversarial Robustness of Vision Transformers Rulin Shao Zhouxing Shi Jinfeng Yi Pin-Yu Chen Cho-Jui Hsieh ViT 40 138 0 29 Mar 2021
InfoBERT: Improving Robustness of Language Models from An Information Theoretic Perspective Wei Ping Shuohang Wang Yu Cheng Zhe Gan R. Jia Yue Liu Jingjing Liu AAML 50 113 0 05 Oct 2020
SoK: Certified Robustness for Deep Neural Networks Linyi Li Tao Xie Yue Liu AAML 38 128 0 09 Sep 2020
Certified Robustness to Adversarial Word Substitutions Robin Jia Aditi Raghunathan Kerem Göksel Percy Liang AAML 194 291 0 03 Sep 2019
Generating Natural Language Adversarial Examples M. Alzantot Yash Sharma Ahmed Elgohary Bo-Jhang Ho Mani B. Srivastava Kai-Wei Chang AAML 258 916 0 21 Apr 2018
Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation Yonghui Wu M. Schuster Zhehuai Chen Quoc V. Le Mohammad Norouzi ... Alex Rudnick Oriol Vinyals G. Corrado Macduff Hughes J. Dean AIMat 718 6,750 0 26 Sep 2016
Convolutional Neural Networks for Sentence Classification Yoon Kim AILaw VLM 312 13,377 0 25 Aug 2014