Datasheets for Datasets

23 March 2018

Timnit Gebru

Jamie Morgenstern

Briana Vecchione

Jennifer Wortman Vaughan

Papers citing "Datasheets for Datasets"

50 / 966 papers shown

Title
Impact of Pretraining Term Frequencies on Few-Shot Reasoning Yasaman Razeghi Robert L Logan IV Matt Gardner Sameer Singh ReLM LRM 17 150 0 15 Feb 2022
Repairing the Cracked Foundation: A Survey of Obstacles in Evaluation Practices for Generated Text Sebastian Gehrmann Elizabeth Clark Thibault Sellam ELM AI4CE 58 183 0 14 Feb 2022
Can Machines Help Us Answering Question 16 in Datasheets, and In Turn Reflecting on Inappropriate Content? P. Schramowski Christopher Tauchmann Kristian Kersting FaML 14 86 0 14 Feb 2022
Accountability in an Algorithmic Society: Relationality, Responsibility, and Robustness in Machine Learning A. Feder Cooper Emanuel Moss Benjamin Laufer Helen Nissenbaum MLAU 24 85 0 10 Feb 2022
The Abduction of Sherlock Holmes: A Dataset for Visual Abductive Reasoning Jack Hessel Jena D. Hwang J. Park Rowan Zellers Chandra Bhagavatula Anna Rohrbach Kate Saenko Yejin Choi ReLM 149 48 0 10 Feb 2022
The craft and coordination of data curation: complicating "workflow" views of data science A. Thomer Dharma Akmon J. York Allison R. B. Tyler Faye O. Polasek Sara Lafia Libby Hemphill E. Yakel 16 20 0 09 Feb 2022
Towards a consistent interpretation of AIOps models Yingzhe Lyu Gopi Krishnan Rajbahadur Dayi Lin Boyuan Chen Zhen Ming Z. Jiang AI4CE 16 19 0 04 Feb 2022
Towards Training Reproducible Deep Learning Models Boyuan Chen Mingzhi Wen Yong Shi Dayi Lin Gopi Krishnan Rajbahadur Zhen Ming Z. Jiang SyDa 15 37 0 04 Feb 2022
Net benefit, calibration, threshold selection, and training objectives for algorithmic fairness in healthcare Stephen R. Pfohl Yizhe Xu Agata Foryciarz Nikolaos Ignatiadis Julian Z. Genkins N. Shah 17 29 0 03 Feb 2022
Adaptive Sampling Strategies to Construct Equitable Training Datasets William Cai R. Encarnación Bobbie Chern S. Corbett-Davies Miranda Bogen Stevie Bergman Sharad Goel 81 30 0 31 Jan 2022
Fair ranking: a critical review, challenges, and future directions Gourab K. Patro Lorenzo Porcaro Laura Mitchell Qiuyue Zhang Meike Zehlike Nikhil Garg 18 51 0 29 Jan 2022
IMACS: Image Model Attribution Comparison Summaries E. Schoop Benjamin D. Wedin A. Kapishnikov Tolga Bolukbasi Michael Terry FAtt 21 1 0 26 Jan 2022
Natural Language Descriptions of Deep Visual Features Evan Hernandez Sarah Schwettmann David Bau Teona Bagashvili Antonio Torralba Jacob Andreas MILM 196 117 0 26 Jan 2022
Whose Language Counts as High Quality? Measuring Language Ideologies in Text Data Selection Suchin Gururangan Dallas Card Sarah K. Drier E. K. Gade Leroy Z. Wang Zeyu Wang Luke Zettlemoyer Noah A. Smith 167 73 0 25 Jan 2022
An Algorithmic Framework for Bias Bounties Ira Globus-Harris Michael Kearns Aaron Roth FedML 100 24 0 25 Jan 2022
Documenting Geographically and Contextually Diverse Data Sources: The BigScience Catalogue of Language Data and Resources Angelina McMillan-Major Zaid Alyafeai Stella Biderman Kimbo Chen F. Toni ... Aitor Soroa Etxabe Pedro Ortiz Suarez Zeerak Talat Daniel Alexander van Strien Yacine Jernite 32 14 0 25 Jan 2022
Evaluating a Methodology for Increasing AI Transparency: A Case Study David Piorkowski John T. Richards Michael Hind 35 5 0 24 Jan 2022
Benchmark datasets driving artificial intelligence development fail to capture the needs of medical professionals Kathrin Blagec J. Kraiger Wolfgang Frühwirt Matthias Samwald AI4MH 30 26 0 18 Jan 2022
OmniPrint: A Configurable Printed Character Synthesizer Haozhe Sun Wei-Wei Tu Isabelle M Guyon SyDa 30 7 0 17 Jan 2022
The Dataset Nutrition Label (2nd Gen): Leveraging Context to Mitigate Harms in Artificial Intelligence Kasia Chmielinski S. Newman Matt Taylor Joshua Joseph Kemi Thomas Jessica Yurkofsky Yue Qiu 25 51 0 10 Jan 2022
MERLOT Reserve: Neural Script Knowledge through Vision and Language and Sound Rowan Zellers Jiasen Lu Ximing Lu Youngjae Yu Yanpeng Zhao Mohammadreza Salehi Aditya Kusupati Jack Hessel Ali Farhadi Yejin Choi 26 207 0 07 Jan 2022
Data-driven Model Generalizability in Crosslinguistic Low-resource Morphological Segmentation Zoey Liu Emily Tucker Prudhommeaux 29 4 0 05 Jan 2022
STEREO: Scientific Text Reuse in Open Access Publications Lukas Gienapp Wolfgang Kircheis Bjarne Sievers Benno Stein Martin Potthast 17 8 0 22 Dec 2021
Validation and Transparency in AI systems for pharmacovigilance: a case study applied to the medical literature monitoring of adverse events Bruno Ohana Jack D. Sullivan Nicole L. Baker 6 0 0 21 Dec 2021
AI Ethics Principles in Practice: Perspectives of Designers and Developers Conrad Sanderson David M. Douglas Qinghua Lu Emma Schleiger Jon Whittle J. Lacey G. Newnham S. Hajkowicz Cathy J. Robinson David Hansen FaML 17 45 0 14 Dec 2021
A Framework for Fairness: A Systematic Review of Existing Fair AI Solutions Brianna Richardson J. Gilbert FaML 10 36 0 10 Dec 2021
Whose Ground Truth? Accounting for Individual and Collective Identities Underlying Dataset Annotation Emily L. Denton Mark Díaz Ian D Kivlichan Vinodkumar Prabhakaran Rachel Rosen 26 65 0 08 Dec 2021
Dataset Geography: Mapping Language Data to Language Users Fahim Faisal Yinkai Wang Antonios Anastasopoulos 54 23 0 07 Dec 2021
Text2Mesh: Text-Driven Neural Stylization for Meshes O. Michel Roi Bar-On Richard Liu Sagie Benaim Rana Hanocka CLIP AI4CE 185 350 0 06 Dec 2021
Thinking Beyond Distributions in Testing Machine Learned Models Negar Rostamzadeh B. Hutchinson Christina Greer Vinodkumar Prabhakaran TTA 32 6 0 06 Dec 2021
Toward a Taxonomy of Trust for Probabilistic Machine Learning Tamara Broderick Andrew Gelman Rachael Meager Anna L. Smith Tian Zheng 21 9 0 05 Dec 2021
Could AI Democratise Education? Socio-Technical Imaginaries of an EdTech Revolution Sahan Bulathwela Maria Perez-Ortiz C. Holloway John Shawe-Taylor 12 19 0 03 Dec 2021
Reduced, Reused and Recycled: The Life of a Dataset in Machine Learning Research Bernard Koch Emily L. Denton A. Hanna J. Foster 31 140 0 03 Dec 2021
CSAW-M: An Ordinal Classification Dataset for Benchmarking Mammographic Masking of Cancer Moein Sorkhei Yue Liu Hossein Azizpour E. Azavedo Karin Dembrower Dimitra Ntoula Athanasios Zouzos Fredrik Strand Kevin Smith 11 8 0 02 Dec 2021
A Causal Approach for Unfair Edge Prioritization and Discrimination Removal Pavan Ravishankar Pranshu Malviya Balaraman Ravindran 14 1 0 29 Nov 2021
AI and the Everything in the Whole Wide World Benchmark Inioluwa Deborah Raji Emily M. Bender Amandalynne Paullada Emily L. Denton A. Hanna 23 291 0 26 Nov 2021
RedCaps: web-curated image-text data created by the people, for the people Karan Desai Gaurav Kaul Zubin Aysola Justin Johnson 12 162 0 22 Nov 2021
Advancing High-Resolution Video-Language Representation with Large-Scale Video Transcriptions Hongwei Xue Tiankai Hang Yanhong Zeng Yuchong Sun Bei Liu Huan Yang Jianlong Fu B. Guo AI4TS VLM 27 189 0 19 Nov 2021
ClevrTex: A Texture-Rich Benchmark for Unsupervised Multi-Object Segmentation Laurynas Karazija Iro Laina Christian Rupprecht 3DV VOS 27 84 0 19 Nov 2021
A Large Scale Benchmark for Individual Treatment Effect Prediction and Uplift Modeling Eustache Diemert Artem Betlei Christophe Renaudin Massih-Reza Amini T. Gregoir Thibaud Rahier CML 17 10 0 19 Nov 2021
Software Engineering for Responsible AI: An Empirical Study and Operationalised Patterns Qinghua Lu Liming Zhu Xiwei Xu Jon Whittle David M. Douglas Conrad Sanderson 10 35 0 18 Nov 2021
Who Decides if AI is Fair? The Labels Problem in Algorithmic Auditing Abhilash Mishra Yash Gorana 19 3 0 16 Nov 2021
Annotators with Attitudes: How Annotator Beliefs And Identities Bias Toxic Language Detection Maarten Sap Swabha Swayamdipta Laura Vianna Xuhui Zhou Yejin Choi Noah A. Smith 29 266 0 15 Nov 2021
A Word on Machine Ethics: A Response to Jiang et al. (2021) Zeerak Talat Hagen Blix Josef Valvoda M. I. Ganesh Ryan Cotterell Adina Williams SyDa FaML 93 39 0 07 Nov 2021
EEGEyeNet: a Simultaneous Electroencephalography and Eye-tracking Dataset and Benchmark for Eye Movement Prediction Ard Kastrati M. Płomecka Damian Pascual L. Wolf Victor Gillioz Roger Wattenhofer N. Langer 28 39 0 06 Nov 2021
Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of Language Models Boxin Wang Chejian Xu Shuohang Wang Zhe Gan Yu Cheng Jianfeng Gao Ahmed Hassan Awadallah B. Li VLM ELM AAML 11 214 0 04 Nov 2021
Benchmarking Multimodal AutoML for Tabular Data with Text Fields Xingjian Shi Jonas W. Mueller Nick Erickson Mu Li Alexander J. Smola LMTD 32 29 0 04 Nov 2021
Feature and Label Embedding Spaces Matter in Addressing Image Classifier Bias William Thong Cees G. M. Snoek 9 14 0 27 Oct 2021
IconQA: A New Benchmark for Abstract Diagram Understanding and Visual Language Reasoning Pan Lu Liang Qiu Jiaqi Chen Tony Xia Yizhou Zhao Wei Zhang Zhou Yu Xiaodan Liang Song-Chun Zhu AIMat 28 183 0 25 Oct 2021
What Would Jiminy Cricket Do? Towards Agents That Behave Morally Dan Hendrycks Mantas Mazeika Andy Zou Sahil Patel Christine Zhu Jesus Navarro D. Song Bo-wen Li Jacob Steinhardt 14 58 0 25 Oct 2021