v1v2v3v4v5v6 (latest)

Is BERT Really Robust? A Strong Baseline for Natural Language Attack on Text Classification and Entailment

27 July 2019

ArXiv (abs)PDF HTML Github (511★)

Papers citing "Is BERT Really Robust? A Strong Baseline for Natural Language Attack on Text Classification and Entailment"

50 / 567 papers shown

Title
Contrastive Instruction Tuning Tianyi Yan Fei Wang James Y. Huang Wenxuan Zhou Fan Yin Aram Galstyan Wenpeng Yin Muhao Chen ALM 58 6 0 17 Feb 2024
VQAttack: Transferable Adversarial Attacks on Visual Question Answering via Pre-trained Models Ziyi Yin Muchao Ye Tianrong Zhang Jiaqi Wang Han Liu Jinghui Chen Ting Wang Fenglong Ma OOD AAML 51 2 0 16 Feb 2024
Generalizability of Mixture of Domain-Specific Adapters from the Lens of Signed Weight Directions and its Application to Effective Model Pruning Tuc Nguyen Thai Le MoMe 87 3 0 16 Feb 2024
Leveraging the Context through Multi-Round Interactions for Jailbreaking Attacks Yixin Cheng Markos Georgopoulos Volkan Cevher Grigorios G. Chrysos AAML 71 15 0 14 Feb 2024
Pixel Sentence Representation Learning Chenghao Xiao Zhuoxu Huang Danlu Chen G. Hudson Yizhi Li Haoran Duan Chenghua Lin Jie Fu Jungong Han Noura Al Moubayed SSL 46 3 0 13 Feb 2024
PoisonedRAG: Knowledge Poisoning Attacks to Retrieval-Augmented Generation of Large Language Models Wei Zou Runpeng Geng Binghui Wang Jinyuan Jia SILM 106 31 1 12 Feb 2024
Accuracy of TextFooler black box adversarial attacks on 01 loss sign activation neural network ensemble Yunzhe Xue Usman Roshan AAML 57 0 0 12 Feb 2024
Prompt Perturbation in Retrieval-Augmented Generation based Large Language Models Zhibo Hu Chen Wang Yanfeng Shu Helen Paik Paik Liming Zhu SILM RALM 77 10 0 11 Feb 2024
GPT-4 Generated Narratives of Life Events using a Structured Narrative Prompt: A Validation Study Christopher J. Lynch Erik J. Jensen Madison H. Munro Virginia Zamponi Joseph Martinez Kevin O'Brien Brandon Feldhaus Katherine Smith Ann Marie Reinhold Ross Gore 60 3 0 08 Feb 2024
HarmBench: A Standardized Evaluation Framework for Automated Red Teaming and Robust Refusal Mantas Mazeika Long Phan Xuwang Yin Andy Zou Zifan Wang ... Nathaniel Li Steven Basart Bo Li David A. Forsyth Dan Hendrycks AAML 112 419 0 06 Feb 2024
Partially Recentralization Softmax Loss for Vision-Language Models Robustness Hao Wang Xin Zhang Jinzhe Jiang Yaqian Zhao Chen Li AAML 47 0 0 06 Feb 2024
Arabic Synonym BERT-based Adversarial Examples for Text Classification Norah M. Alshahrani Saied Alshahrani Esma Wali Jeanna Neefe Matthews AAML 60 6 0 05 Feb 2024
Exploiting Class Probabilities for Black-box Sentence-level Attacks Raha Moraffah Huan Liu 56 1 0 05 Feb 2024
Adversarial Text Purification: A Large Language Model Approach for Defense Raha Moraffah Shubh Khandelwal Amrita Bhattacharjee Huan Liu DeLMO AAML 97 5 0 05 Feb 2024
Data Poisoning for In-context Learning Pengfei He Han Xu Yue Xing Hui Liu Makoto Yamada Jiliang Tang SILM AAML 100 13 0 03 Feb 2024
HQA-Attack: Toward High Quality Black-Box Hard-Label Adversarial Attack on Text Han Liu Zhi Xu Xiaotong Zhang Feng Zhang Fenglong Ma Hongyang Chen Hong Yu Xianchao Zhang AAML 78 8 0 02 Feb 2024
ALISON: Fast and Effective Stylometric Authorship Obfuscation Eric Xing Saranya Venkatraman Thai V. Le Dongwon Lee DeLMO 55 2 0 01 Feb 2024
Fast Adversarial Training against Textual Adversarial Attacks Yichen Yang Xin Liu Kun He AAML 47 4 0 23 Jan 2024
Benchmarking Large Multimodal Models against Common Corruptions Jiawei Zhang Tianyu Pang Chao Du Yi Ren Yue Liu Min Lin MLLM 77 15 0 22 Jan 2024
Finding a Needle in the Adversarial Haystack: A Targeted Paraphrasing Approach For Uncovering Edge Cases with Minimal Distribution Distortion Aly M. Kassem Sherif Saad AAML 56 1 0 21 Jan 2024
Adapters Mixup: Mixing Parameter-Efficient Adapters to Enhance the Adversarial Robustness of Fine-tuned Pre-trained Text Classifiers Tuc Nguyen Thai Le AAML SILM MoE 102 2 0 18 Jan 2024
Cross-lingual Offensive Language Detection: A Systematic Review of Datasets, Transfer Approaches and Challenges Aiqi Jiang A. Zubiaga AAML 84 4 0 17 Jan 2024
A Generative Adversarial Attack for Multilingual Text Classifiers Tom Roth Inigo Jauregi Unanue A. Abuadbba Massimo Piccardi AAML 28 0 0 16 Jan 2024
ROIC-DM: Robust Text Inference and Classification via Diffusion Model Shilong Yuan Wei Yuan Hongzhi Yin Tieke He DiffM 93 3 0 07 Jan 2024
Characterizing and Classifying Developer Forum Posts with their Intentions Xingfang Wu Eric Thibodeau-Laufer Heng Li Foutse Khomh Santhosh Srinivasan Jayden Luo 30 0 0 21 Dec 2023
METAL: Metamorphic Testing Framework for Analyzing Large-Language Model Qualities Sangwon Hyun Mingyu Guo Muhammad Ali Babar 73 10 0 11 Dec 2023
SA-Attack: Improving Adversarial Transferability of Vision-Language Pre-training Models via Self-Augmentation Bangyan He Xiaojun Jia Siyuan Liang Tianrui Lou Yang Liu Xiaochun Cao AAML VLM 107 29 0 08 Dec 2023
RoAST: Robustifying Language Models via Adversarial Perturbation with Selective Training Jaehyung Kim Yuning Mao Rui Hou Hanchao Yu Davis Liang Pascale Fung Qifan Wang Fuli Feng Lifu Huang Madian Khabsa AAML 58 4 0 07 Dec 2023
Prompt Optimization via Adversarial In-Context Learning Do Xuan Long Yiran Zhao Hannah Brown Yuxi Xie James Xu Zhao Nancy F. Chen Kenji Kawaguchi Michael Qizhe Xie Junxian He 146 16 0 05 Dec 2023
SenTest: Evaluating Robustness of Sentence Encoders Tanmay Chavan Shantanu Patankar Aditya Kane Omkar Gokhale Geetanjali Kale Raviraj Joshi 79 0 0 29 Nov 2023
MMA-Diffusion: MultiModal Attack on Diffusion Models Yijun Yang Ruiyuan Gao Xiaosen Wang Tsung-Yi Ho Nan Xu Qiang Xu 91 77 0 29 Nov 2023
Improving the Robustness of Transformer-based Large Language Models with Dynamic Attention Lujia Shen Yuwen Pu Shouling Ji Changjiang Li Xuhong Zhang Chunpeng Ge Ting Wang AAML 69 6 0 29 Nov 2023
IndoRobusta: Towards Robustness Against Diverse Code-Mixed Indonesian Local Languages Muhammad Farid Adilazuarda Samuel Cahyawijaya Genta Indra Winata Pascale Fung Ayu Purwarianti 102 12 0 21 Nov 2023
Generating Valid and Natural Adversarial Examples with Large Language Models Zimu Wang Wei Wang Qi Chen Qiufeng Wang Anh Nguyen AAML 98 4 0 20 Nov 2023
Whispers of Doubt Amidst Echoes of Triumph in NLP Robustness Ashim Gupta Rishanth Rajendhran Nathan Stringham Vivek Srikumar Ana Marasović AAML 86 3 0 16 Nov 2023
Explore Spurious Correlations at the Concept Level in Language Models for Text Classification Yuhang Zhou Paiheng Xu Xiaoyu Liu Bang An Wei Ai Furong Huang LRM 185 27 0 15 Nov 2023
DALA: A Distribution-Aware LoRA-Based Adversarial Attack against Language Models Yibo Wang Xiangjue Dong James Caverlee Philip S. Yu 76 2 0 14 Nov 2023
Alignment is not sufficient to prevent large language models from generating harmful information: A psychoanalytic perspective Zi Yin Wei Ding Jia Liu 67 1 0 14 Nov 2023
Robust Text Classification: Analyzing Prototype-Based Networks Zhivar Sourati D. Deshpande Filip Ilievski Kiril Gashteovski S. Saralajew OOD OffRL 85 2 0 11 Nov 2023
Towards Effective Paraphrasing for Information Disguise Anmol Agarwal Shrey Gupta Vamshi Krishna Bonagiri Manas Gaur Joseph M. Reagle Ponnurangam Kumaraguru 72 3 0 08 Nov 2023
Measuring Adversarial Datasets Yuanchen Bai Raoyi Huang Vijay Viswanathan Tzu-Sheng Kuo Tongshuang Wu 83 1 0 06 Nov 2023
Quantifying Uncertainty in Natural Language Explanations of Large Language Models Sree Harsha Tanneru Chirag Agarwal Himabindu Lakkaraju LRM 68 15 0 06 Nov 2023
Efficient Black-Box Adversarial Attacks on Neural Text Detectors Vitalii Fishchuk Daniel Braun AAML DeLMO 51 4 0 03 Nov 2023
Robustifying Language Models with Test-Time Adaptation Noah T. McDermott Junfeng Yang Chengzhi Mao 102 2 0 29 Oct 2023
BERT Lost Patience Won't Be Robust to Adversarial Slowdown Zachary Coalson Gabriel Ritter Rakesh Bobba Sanghyun Hong AAML 47 2 0 29 Oct 2023
Elevating Code-mixed Text Handling through Auditory Information of Words Mamta Mamta Zishan Ahmad Asif Ekbal 23 6 0 27 Oct 2023
Break it, Imitate it, Fix it: Robustness by Generating Human-Like Attacks Aradhana Sinha Ananth Balashankar Ahmad Beirami Thi Avrahami Jilin Chen Alex Beutel AAML 83 4 0 25 Oct 2023
Locally Differentially Private Document Generation Using Zero Shot Prompting Saiteja Utpala Sara Hooker Pin-Yu Chen 53 39 0 24 Oct 2023
Toward Stronger Textual Attack Detectors Pierre Colombo Marine Picot Nathan Noiry Guillaume Staerman Pablo Piantanida 561 5 0 21 Oct 2023
Towards Robust Pruning: An Adaptive Knowledge-Retention Pruning Strategy for Language Models Jianwei Li Qi Lei Wei Cheng Dongkuan Xu KELM 71 6 0 19 Oct 2023