Adversarially Constructed Evaluation Sets Are More Challenging, but May Not Be Fair

16 November 2021

Papers citing "Adversarially Constructed Evaluation Sets Are More Challenging, but May Not Be Fair"

6 / 6 papers shown

Title
Improving Model Evaluation using SMART Filtering of Benchmark Datasets Vipul Gupta Candace Ross David Pantoja R. Passonneau Megan Ung Adina Williams 55 1 0 26 Oct 2024
WANLI: Worker and AI Collaboration for Natural Language Inference Dataset Creation Alisa Liu Swabha Swayamdipta Noah A. Smith Yejin Choi 30 212 0 16 Jan 2022
Models in the Loop: Aiding Crowdworkers with Generative Annotation Assistants Max Bartolo Tristan Thrush Sebastian Riedel Pontus Stenetorp Robin Jia Douwe Kiela 17 33 0 16 Dec 2021
Analyzing Dynamic Adversarial Training Data in the Limit Eric Wallace Adina Williams Robin Jia Douwe Kiela 184 29 0 16 Oct 2021
ANLIzing the Adversarial Natural Language Inference Dataset Adina Williams Tristan Thrush Douwe Kiela AAML 166 45 0 24 Oct 2020
GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding Alex Jinpeng Wang Amanpreet Singh Julian Michael Felix Hill Omer Levy Samuel R. Bowman ELM 294 6,943 0 20 Apr 2018