Reducing Gender Bias in Abusive Language Detection

22 August 2018

Papers citing "Reducing Gender Bias in Abusive Language Detection"

50 / 114 papers shown

Title
Reward Model Interpretability via Optimal and Pessimal Tokens Brian Christian Hannah Rose Kirk Jessica A.F. Thompson Christopher Summerfield Tsvetomira Dumbalska AAML 17 0 0 08 Jun 2025
Social Bias in Popular Question-Answering Benchmarks Angelie Kraft Judith Simon Sonja Schimmler 115 0 0 21 May 2025
GraphSeg: Segmented 3D Representations via Graph Edge Addition and Contraction Haozhan Tang Tianyi Zhang Oliver Kroemer Matthew Johnson-Roberson Weiming Zhi 3DPC 95 1 0 04 Apr 2025
Gender Encoding Patterns in Pretrained Language Model Representations Mahdi Zakizadeh Mohammad Taher Pilehvar 208 0 0 09 Mar 2025
Longitudinal Abuse and Sentiment Analysis of Hollywood Movie Dialogues using LLMs Rohitash Chandra Guoxiang Ren G. Houseman 108 1 0 20 Jan 2025
Rater Cohesion and Quality from a Vicarious Perspective Deepak Pandita Tharindu Cyril Weerasooriya Sujan Dutta Sarah K. K. Luger Tharindu Ranasinghe Ashiqur R. KhudaBukhsh Marcos Zampieri Christopher M. Homan 61 1 0 15 Aug 2024
Quite Good, but Not Enough: Nationality Bias in Large Language Models -- A Case Study of ChatGPT Shucheng Zhu Weikang Wang Ying Liu 70 6 0 11 May 2024
Hire Me or Not? Examining Language Model's Behavior with Occupation Attributes Damin Zhang Yi Zhang Geetanjali Bihani Julia Taylor Rayz 162 3 0 06 May 2024
From Languages to Geographies: Towards Evaluating Cultural Bias in Hate Speech Datasets Manuel Tonneau Diyi Liu Samuel Fraiberger Ralph Schroeder Scott A. Hale Paul Röttger 109 7 0 27 Apr 2024
PEFTDebias : Capturing debiasing information using PEFTs Sumit Agarwal Aditya Srikanth Veerubhotla Srijan Bansal 73 3 0 01 Dec 2023
Beyond Detection: Unveiling Fairness Vulnerabilities in Abusive Language Models Yueqing Liang Lu Cheng Ali Payani Kai Shu 71 3 0 15 Nov 2023
Mitigating Simplicity Bias in Deep Learning for Improved OOD Generalization and Robustness Bhavya Vasudeva Kameron Shahabi Vatsal Sharan 67 4 0 09 Oct 2023
Hateful Messages: A Conversational Data Set of Hate Speech produced by Adolescents on Discord Jan Fillies Silvio Peikert Adrian Paschke 35 2 0 04 Sep 2023
Learning to Generate Equitable Text in Dialogue from Biased Training Data Anthony Sicilia Malihe Alikhani 114 16 0 10 Jul 2023
Out-of-Distribution Generalization in Text Classification: Past, Present, and Future Linyi Yang Yangqiu Song Xuan Ren Chenyang Lyu Yidong Wang Lingqiao Liu Jindong Wang Jennifer Foster Yue Zhang OOD 129 3 0 23 May 2023
Bias mitigation techniques in image classification: fair machine learning in human heritage collections Dalia Ortiz Pablo Sushruth Badri Erik Norén Christoph Nötzli 77 1 0 20 Mar 2023
Data Augmentation for Neural NLP Domagoj Pluscec Jan Snajder 97 6 0 22 Feb 2023
Rating Sentiment Analysis Systems for Bias through a Causal Lens Kausik Lakkaraju Biplav Srivastava Marco Valtorta 60 8 0 04 Feb 2023
A Comprehensive Study of Gender Bias in Chemical Named Entity Recognition Models Xingmeng Zhao A. Niazi Anthony Rios 57 2 0 24 Dec 2022
Fair Infinitesimal Jackknife: Mitigating the Influence of Biased Training Data Points Without Refitting P. Sattigeri S. Ghosh Inkit Padhi Pierre Dognin Kush R. Varshney FaML 105 29 0 13 Dec 2022
Choose Your Lenses: Flaws in Gender Bias Evaluation Hadas Orgad Yonatan Belinkov 80 37 0 20 Oct 2022
MoCoDA: Model-based Counterfactual Data Augmentation Silviu Pitis Elliot Creager Ajay Mandlekar Animesh Garg OffRL 92 38 0 20 Oct 2022
Controlling Bias Exposure for Fair Interpretable Predictions Zexue He Yu Wang Julian McAuley Bodhisattwa Prasad Majumder 58 19 0 14 Oct 2022
Extracting or Guessing? Improving Faithfulness of Event Temporal Relation Extraction Haoyu Wang Hongming Zhang Yuqian Deng Jacob R. Gardner Dan Roth Muhao Chen 68 21 0 10 Oct 2022
Quantifying Social Biases Using Templates is Unreliable P. Seshadri Pouya Pezeshkpour Sameer Singh 89 34 0 09 Oct 2022
A Keyword Based Approach to Understanding the Overpenalization of Marginalized Groups by English Marginal Abuse Models on Twitter Kyra Yee Alice Schoenauer Sebag Olivia Redfield Emily Sheng Matthias Eck Luca Belli 53 2 0 07 Oct 2022
State-of-the-art generalisation research in NLP: A taxonomy and review Dieuwke Hupkes Mario Giulianelli Verna Dankers Mikel Artetxe Yanai Elazar ... Leila Khalatbari Maria Ryskina Rita Frieske Ryan Cotterell Zhijing Jin 270 99 0 06 Oct 2022
Fairness Reprogramming Guanhua Zhang Yihua Zhang Yang Zhang Wenqi Fan Qing Li Sijia Liu Shiyu Chang AAML 213 40 0 21 Sep 2022
Measuring Geographic Performance Disparities of Offensive Language Classifiers Brandon Lwowski P. Rad Anthony Rios 85 6 0 15 Sep 2022
"You Can't Fix What You Can't Measure": Privately Measuring Demographic Performance Disparities in Federated Learning Marc Juárez Aleksandra Korolova FedML 79 10 0 24 Jun 2022
Toward Understanding Bias Correlations for Mitigation in NLP Lu Cheng Suyu Ge Huan Liu 72 9 0 24 May 2022
User Guide for KOTE: Korean Online Comments Emotions Dataset Duyoung Jeon Junho Lee Cheongtag Kim 58 0 0 11 May 2022
Necessity and Sufficiency for Explaining Text Classifiers: A Case Study in Hate Speech Detection Esma Balkir I. Nejadgholi Kathleen C. Fraser S. Kiritchenko FAtt 69 27 0 06 May 2022
Theories of "Gender" in NLP Bias Research Hannah Devinney Jenny Björklund H. Björklund AI4CE 112 77 0 05 May 2022
Human-AI Collaboration via Conditional Delegation: A Case Study of Content Moderation Vivian Lai Samuel Carton Rajat Bhatnagar Vera Liao Yunfeng Zhang Chenhao Tan 102 137 0 25 Apr 2022
Balancing Fairness and Accuracy in Sentiment Detection using Multiple Black Box Models Abdulaziz A. Almuzaini V. Singh MLAU FaML 53 6 0 22 Apr 2022
Generating Full Length Wikipedia Biographies: The Impact of Gender Bias on the Retrieval-Based Generation of Women Biographies Angela Fan Claire Gardent 36 5 0 12 Apr 2022
Easy Adaptation to Mitigate Gender Bias in Multilingual Text Classification Xiaolei Huang FaML 41 9 0 12 Apr 2022
Lahjoita puhetta -- a large-scale corpus of spoken Finnish with some benchmarks Anssi Moisio Dejan Porjazovski Aku Rouhe Yaroslav Getman A. Virkkunen Tamás Grósz Krister Lindén M. Kurimo 92 23 0 24 Mar 2022
Suum Cuique: Studying Bias in Taboo Detection with a Community Perspective Osama Khalid Jonathan Rusert P. Srinivasan 25 1 0 22 Mar 2022
The worst of both worlds: A comparative analysis of errors in learning from data in psychology and machine learning Jessica Hullman Sayash Kapoor Priyanka Nanayakkara Andrew Gelman Arvind Narayanan 147 39 0 12 Mar 2022
Beyond Plain Toxic: Detection of Inappropriate Statements on Flammable Topics for the Russian Language N. Babakov V. Logacheva Alexander Panchenko 46 3 0 04 Mar 2022
On Modality Bias Recognition and Reduction Yangyang Guo Liqiang Nie Harry Cheng Zhiyong Cheng Mohan S. Kankanhalli A. Bimbo 75 28 0 25 Feb 2022
Handling Bias in Toxic Speech Detection: A Survey Tanmay Garg Sarah Masud Tharun Suresh Tanmoy Chakraborty 122 98 0 26 Jan 2022
Text and Code Embeddings by Contrastive Pre-Training Arvind Neelakantan Tao Xu Raul Puri Alec Radford Jesse Michael Han ... Tabarak Khan Toki Sherbakov Joanne Jang Peter Welinder Lilian Weng SSL AI4TS 394 445 0 24 Jan 2022
Causal effect of racial bias in data and machine learning algorithms on user persuasiveness & discriminatory decision making: An Empirical Study Kinshuk Sengupta Praveen Ranjan Srivastava 74 6 0 22 Jan 2022
A Survey on Gender Bias in Natural Language Processing Karolina Stañczak Isabelle Augenstein 93 117 0 28 Dec 2021
Simple Text Detoxification by Identifying a Linear Toxic Subspace in Language Model Embeddings Andrew Wang Mohit Sudhakar Yangfeng Ji 44 2 0 15 Dec 2021
Mitigating Racial Biases in Toxic Language Detection with an Equity-Based Ensemble Framework Matan Halevy Camille Harris A. Bruckman Diyi Yang A. Howard 102 37 0 27 Sep 2021
ConvAbuse: Data, Analysis, and Benchmarks for Nuanced Abuse Detection in Conversational AI Amanda Cercas Curry Gavin Abercrombie Verena Rieser 91 82 0 20 Sep 2021