Break it, Imitate it, Fix it: Robustness by Generating Human-Like Attacks

25 October 2023

Papers citing "Break it, Imitate it, Fix it: Robustness by Generating Human-Like Attacks"

6 / 6 papers shown

Title
Phrase-level Textual Adversarial Attack with Label Preservation Yibin Lei Yu Cao Dianqi Li Tianyi Zhou Meng Fang Mykola Pechenizkiy AAML 35 24 0 22 May 2022
Hatemoji: A Test Suite and Adversarially-Generated Dataset for Benchmarking and Detecting Emoji-based Hate Hannah Rose Kirk B. Vidgen Paul Röttger Tristan Thrush Scott A. Hale 65 57 0 12 Aug 2021
It's Morphin' Time! Combating Linguistic Discrimination with Inflectional Perturbations Samson Tan Shafiq R. Joty Min-Yen Kan R. Socher 152 103 0 09 May 2020
FreeLB: Enhanced Adversarial Training for Natural Language Understanding Chen Zhu Yu Cheng Zhe Gan S. Sun Tom Goldstein Jingjing Liu AAML 217 430 0 25 Sep 2019
Certified Robustness to Adversarial Word Substitutions Robin Jia Aditi Raghunathan Kerem Göksel Percy Liang AAML 172 289 0 03 Sep 2019
GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding Alex Jinpeng Wang Amanpreet Singh Julian Michael Felix Hill Omer Levy Samuel R. Bowman ELM 294 6,927 0 20 Apr 2018