v1v2v3v4v5v6 (latest)

Is BERT Really Robust? A Strong Baseline for Natural Language Attack on Text Classification and Entailment

27 July 2019

ArXiv (abs)PDF HTML Github (511★)

Papers citing "Is BERT Really Robust? A Strong Baseline for Natural Language Attack on Text Classification and Entailment"

50 / 567 papers shown

Title
Red Teaming Language Model Detectors with Language Models Zhouxing Shi Yihan Wang Fan Yin Xiangning Chen Kai-Wei Chang Cho-Jui Hsieh DeLMO 90 57 0 31 May 2023
Modeling Adversarial Attack on Pre-trained Language Models as Sequential Decision Making Xuanjie Fang Sijie Cheng Yang Liu Wen Wang AAML 63 9 0 27 May 2023
Counterfactuals of Counterfactuals: a back-translation-inspired approach to analyse counterfactual editors Giorgos Filandrianos Edmund Dervakos Orfeas Menis Mastromichalakis Chrysoula Zerva Giorgos Stamou AAML 90 5 0 26 May 2023
On Evaluating Adversarial Robustness of Large Vision-Language Models Yunqing Zhao Tianyu Pang Chao Du Xiao Yang Chongxuan Li Ngai-Man Cheung Min Lin VLM AAML MLLM 149 184 0 26 May 2023
Don't Retrain, Just Rewrite: Countering Adversarial Perturbations by Rewriting Text Ashim Gupta Carter Blum Temma Choji Yingjie Fei Shalin S Shah Alakananda Vempala Vivek Srikumar AAML 62 9 0 25 May 2023
How do humans perceive adversarial text? A reality check on the validity and naturalness of word-based adversarial attacks Salijona Dyrmishi Salah Ghamizi Maxime Cordy AAML 80 19 0 24 May 2023
Adversarial Demonstration Attacks on Large Language Models Jiong Wang Zi-yang Liu Keun Hee Park Zhuojun Jiang Zhaoheng Zheng Zhuofeng Wu Muhao Chen Chaowei Xiao SILM 105 56 0 24 May 2023
On Robustness of Finetuned Transformer-based NLP Models Pavan Kalyan Reddy Neerudu Subba Reddy Oota Mounika Marreddy Venkateswara Rao Kagita Manish Gupta 69 9 0 23 May 2023
How Fragile is Relation Extraction under Entity Replacements? Yiwei Wang Bryan Hooi Fei Wang Yujun Cai Yuxuan Liang Wenxuan Zhou Jing Tang Manjuan Duan Muhao Chen 118 6 0 22 May 2023
Has It All Been Solved? Open NLP Research Questions Not Solved by Large Language Models Oana Ignat Zhijing Jin Artem Abzaliev Laura Biester Santiago Castro ... Verónica Pérez-Rosas Siqi Shen Zekun Wang Winston Wu Rada Mihalcea LRM 136 6 0 21 May 2023
Are Your Explanations Reliable? Investigating the Stability of LIME in Explaining Text Classifiers by Marrying XAI and Adversarial Attack Christopher Burger Lingwei Chen Thai Le FAtt AAML 83 11 0 21 May 2023
Dynamic Transformers Provide a False Sense of Efficiency Yiming Chen Simin Chen Zexin Li Wei Yang Cong Liu R. Tan Haizhou Li AAML 90 12 0 20 May 2023
SneakyPrompt: Jailbreaking Text-to-image Generative Models Yuchen Yang Bo Hui Haolin Yuan Neil Zhenqiang Gong Yinzhi Cao EGVM 181 93 0 20 May 2023
A Survey of Safety and Trustworthiness of Large Language Models through the Lens of Verification and Validation Xiaowei Huang Wenjie Ruan Wei Huang Gao Jin Yizhen Dong ... Sihao Wu Peipei Xu Dengyu Wu André Freitas Mustafa A. Mustafa ALM 132 96 0 19 May 2023
Smaller Language Models are Better Black-box Machine-Generated Text Detectors Niloofar Mireshghallah Justus Mattern Sicun Gao Reza Shokri Taylor Berg-Kirkpatrick DeLMO 119 48 0 17 May 2023
AF2-Mutation: Adversarial Sequence Mutations against AlphaFold2 on Protein Tertiary Structure Prediction Zhong Yuan Tao Shen Sheng Xu Leiye Yu R. Ren S. Sun 88 2 0 15 May 2023
Measuring Consistency in Text-based Financial Forecasting Models Linyi Yang Yingpeng Ma Yue Zhang 59 4 0 15 May 2023
Watermarking Text Generated by Black-Box Language Models Xi Yang Kejiang Chen Weiming Zhang Chang-rui Liu Yuang Qi Jie Zhang Han Fang Neng H. Yu WaLM 142 62 0 14 May 2023
Randomized Smoothing with Masked Inference for Adversarially Robust Text Classifications Han Cheol Moon Shafiq Joty Ruochen Zhao Megh Thakkar Xu Chi AAML 68 15 0 11 May 2023
Consistent Text Categorization using Data Augmentation in e-Commerce G. Horowitz Stav Yanovsky Daye Noa Avigdor-Elgrabli Ariel Raviv 54 4 0 09 May 2023
Attack Named Entity Recognition by Entity Boundary Interference Yifei Yang Hongqiu Wu Hai Zhao AAML 78 5 0 09 May 2023
Toward Adversarial Training on Contextualized Language Representation Hongqiu Wu Yang Liu Han Shi Haizhen Zhao Hao Fei AAML 49 14 0 08 May 2023
The Best Defense is Attack: Repairing Semantics in Textual Adversarial Examples Heng Yang Ke Li AAML 111 3 0 06 May 2023
Can Large Language Models Be an Alternative to Human Evaluations? Cheng-Han Chiang Hung-yi Lee ALM LM&MA 288 633 0 03 May 2023
Robust Multi-bit Natural Language Watermarking through Invariant Features Kiyoon Yoo Wonhyuk Ahn Jiho Jang Nojun Kwak WaLM 218 83 0 03 May 2023
In ChatGPT We Trust? Measuring and Characterizing the Reliability of ChatGPT Xinyue Shen Zhenpeng Chen Michael Backes Yang Zhang 106 59 0 18 Apr 2023
Masked Language Model Based Textual Adversarial Example Detection Xiaomei Zhang Zhaoxi Zhang Qi Zhong Xufei Zheng Yanjun Zhang Shengshan Hu L. Zhang AAML 101 2 0 18 Apr 2023
Tool Learning with Foundation Models Yujia Qin Shengding Hu Yankai Lin Weize Chen Ning Ding ... Cheng Yang Tongshuang Wu Heng Ji Zhiyuan Liu Maosong Sun 144 222 0 17 Apr 2023
Classification of news spreading barriers Abdul Sittar Dunja Mladenić M. Grobelnik 45 0 0 10 Apr 2023
Profiling the news spreading barriers using news headlines Abdul Sittar Dunja Mladenić M. Grobelnik 41 0 0 07 Apr 2023
Evaluating the Robustness of Machine Reading Comprehension Models to Low Resource Entity Renaming Clemencia Siro T. Ajayi 78 2 0 06 Apr 2023
A Bibliometric Review of Large Language Models Research from 2017 to 2023 Lizhou Fan Lingyao Li Zihui Ma Sanggyu Lee Huizi Yu Libby Hemphill 112 157 0 03 Apr 2023
No more Reviewer #2: Subverting Automatic Paper-Reviewer Assignment using Adversarial Learning Thorsten Eisenhofer Erwin Quiring Jonas Moller Doreen Riepel Thorsten Holz Konrad Rieck AAML 59 6 0 25 Mar 2023
Backdoor Attacks with Input-unique Triggers in NLP Xukun Zhou Jiwei Li Tianwei Zhang Lingjuan Lyu Muqiao Yang Jun He SILM AAML 48 9 0 25 Mar 2023
NoisyHate: Mining Online Human-Written Perturbations for Realistic Robustness Benchmarking of Content Moderation Models Yiran Ye Thai Le Dongwon Lee AAML DeLMO 67 0 0 18 Mar 2023
Verifying the Robustness of Automatic Credibility Assessment Piotr Przybyła A. Shvets Horacio Saggion DeLMO AAML 77 7 0 14 Mar 2023
Model-tuning Via Prompts Makes NLP Models Adversarially Robust Mrigank Raman Pratyush Maini J. Zico Kolter Zachary Chase Lipton Danish Pruthi AAML 71 17 0 13 Mar 2023
An Overview on Language Models: Recent Developments and Outlook Chengwei Wei Yun Cheng Wang Bin Wang C.-C. Jay Kuo 93 47 0 10 Mar 2023
Greener yet Powerful: Taming Large Code Generation Models with Quantization Xiaokai Wei Sujan Kumar Gonugondla W. Ahmad Shiqi Wang Baishakhi Ray ... Ben Athiwaratkun Mingyue Shang M. K. Ramanathan Parminder Bhatia Bing Xiang MQ 57 6 0 09 Mar 2023
Learning the Legibility of Visual Text Perturbations D. Seth Rickard Stureborg Danish Pruthi Bhuwan Dhingra AAML 73 7 0 09 Mar 2023
BeamAttack: Generating High-quality Textual Adversarial Examples through Beam Search and Mixed Semantic Spaces Hai Zhu Qingyang Zhao Yuren Wu AAML 43 4 0 09 Mar 2023
How Robust is GPT-3.5 to Predecessors? A Comprehensive Study on Language Understanding Tasks Xuanting Chen Junjie Ye Can Zu Nuo Xu Rui Zheng Minlong Peng Jie Zhou Tao Gui Qi Zhang Xuanjing Huang AI4MH ELM 67 83 0 01 Mar 2023
Frauds Bargain Attack: Generating Adversarial Text Samples via Word Manipulation Process Mingze Ni Zhen-Biao Sun Wei Liu AAML SILM 72 7 0 01 Mar 2023
CitySpec with Shield: A Secure Intelligent Assistant for Requirement Formalization Zirong Chen Issa Li Haoxiang Zhang S. Preum John A. Stankovic Meiyi Ma AI4TS 77 5 0 19 Feb 2023
Graph Adversarial Immunization for Certifiable Robustness Shuchang Tao Huawei Shen Qi Cao Yunfan Wu Liang Hou Xueqi Cheng AAML 120 5 0 16 Feb 2023
Backdoor Learning for NLP: Recent Advances, Challenges, and Future Research Directions Marwan Omar SILM AAML 73 20 0 14 Feb 2023
TextDefense: Adversarial Text Detection based on Word Importance Entropy Lujia Shen Xuhong Zhang S. Ji Yuwen Pu Chunpeng Ge Xing Yang Yanghe Feng AAML 59 8 0 12 Feb 2023
MTTM: Metamorphic Testing for Textual Content Moderation Software Wenxuan Wang Jen-tse Huang Weibin Wu Jianping Zhang Yizhan Huang Shuqing Li Pinjia He Michael Lyu 76 32 0 11 Feb 2023
Evaluating the Robustness of Discrete Prompts Yoichi Ishibashi Danushka Bollegala Katsuhito Sudoh Satoshi Nakamura 65 19 0 11 Feb 2023
Step by Step Loss Goes Very Far: Multi-Step Quantization for Adversarial Text Attacks Piotr Gaiñski Klaudia Bałazy 67 6 0 10 Feb 2023