Towards Understanding and Mitigating Social Biases in Language Models

Towards Understanding and Mitigating Social Biases in Language Models

24 June 2021

Louis-Philippe Morency

Ruslan Salakhutdinov

Papers citing "Towards Understanding and Mitigating Social Biases in Language Models"

13 / 13 papers shown

Title
AI Ethics and Social Norms: Exploring ChatGPT's Capabilities From What to How Omid Veisi Sasan Bahrami Roman Englert Claudia Müller 57 0 0 25 Apr 2025
Navigating the Rabbit Hole: Emergent Biases in LLM-Generated Attack Narratives Targeting Mental Health Groups Rijul Magu Arka Dutta Sean Kim Ashiqur R. KhudaBukhsh Munmun De Choudhury 14 0 0 08 Apr 2025
Intent-Aware Self-Correction for Mitigating Social Biases in Large Language Models Panatchakorn Anantaprayoon Masahiro Kaneko Naoaki Okazaki LRM KELM 50 0 0 08 Mar 2025
AI for Scaling Legal Reform: Mapping and Redacting Racial Covenants in Santa Clara County Faiz Surani Mirac Suzgun Vyoma Raman Christopher D. Manning Peter Henderson Daniel E. Ho 36 0 0 12 Feb 2025
Enhancing Privacy in the Early Detection of Sexual Predators Through Federated Learning and Differential Privacy Khaoula Chehbouni Martine De Cock Gilles Caporossi Afaf Taik Reihaneh Rabbany G. Farnadi 68 0 0 21 Jan 2025
Surveying Attitudinal Alignment Between Large Language Models Vs. Humans Towards 17 Sustainable Development Goals Qingyang Wu Ying Xu Tingsong Xiao Yunze Xiao Yitong Li ... Yichi Zhang Shanghai Zhong Yuwei Zhang Wei Lu Yifan Yang 53 1 0 17 Jan 2025
The Promises and Pitfalls of LLM Annotations in Dataset Labeling: a Case Study on Media Bias Detection Tomas Horych Christoph Mandl Terry Ruas André Greiner-Petter Bela Gipp Akiko Aizawa Timo Spinde 83 3 0 17 Nov 2024
Hire Me or Not? Examining Language Model's Behavior with Occupation Attributes Damin Zhang Yi Zhang Geetanjali Bihani Julia Taylor Rayz 36 2 0 06 May 2024
SafetyPrompts: a Systematic Review of Open Datasets for Evaluating and Improving Large Language Model Safety Paul Röttger Fabio Pernisi Bertie Vidgen Dirk Hovy ELM KELM 49 30 0 08 Apr 2024
The Impact of Unstated Norms in Bias Analysis of Language Models Farnaz Kohankhaki D. B. Emerson David B. Emerson Laleh Seyyed-Kalantari Faiza Khan Khattak 28 1 0 04 Apr 2024
Personality Traits in Large Language Models Gregory Serapio-García Mustafa Safdari Clément Crepy Luning Sun Stephen Fitz P. Romero Marwa Abdulhai Aleksandra Faust Maja J. Matarić LM&MA LLMAG 27 117 0 01 Jul 2023
AlexaTM 20B: Few-Shot Learning Using a Large-Scale Multilingual Seq2Seq Model Saleh Soltan Shankar Ananthakrishnan Jack G. M. FitzGerald Rahul Gupta Wael Hamza ... Mukund Sridhar Fabian Triefenbach Apurv Verma Gökhan Tür Premkumar Natarajan 17 82 0 02 Aug 2022
The Woman Worked as a Babysitter: On Biases in Language Generation Emily Sheng Kai-Wei Chang Premkumar Natarajan Nanyun Peng 195 607 0 03 Sep 2019