Measuring Implicit Bias in Explicitly Unbiased Large Language Models

6 February 2024

Papers citing "Measuring Implicit Bias in Explicitly Unbiased Large Language Models"

5 / 5 papers shown

Title
Dialect prejudice predicts AI decisions about people's character, employability, and criminality Valentin Hofmann Pratyusha Kalluri Dan Jurafsky Sharese King 51 16 0 01 Mar 2024
Using cognitive psychology to understand GPT-3 Marcel Binz Eric Schulz ELM LLMAG 228 435 0 21 Jun 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 301 11,730 0 04 Mar 2022
BBQ: A Hand-Built Bias Benchmark for Question Answering Alicia Parrish Angelica Chen Nikita Nangia Vishakh Padmakumar Jason Phang Jana Thompson Phu Mon Htut Sam Bowman 202 364 0 15 Oct 2021
The Woman Worked as a Babysitter: On Biases in Language Generation Emily Sheng Kai-Wei Chang Premkumar Natarajan Nanyun Peng 195 607 0 03 Sep 2019