Reducing Gender Bias in Abusive Language Detection

22 August 2018

Papers citing "Reducing Gender Bias in Abusive Language Detection"

50 / 114 papers shown

Title
Adversarial Scrubbing of Demographic Information for Text Classification Somnath Basu Roy Chowdhury Sayan Ghosh Yiyuan Li Junier B. Oliva Shashank Srivastava Snigdha Chaturvedi 76 14 0 17 Sep 2021
Balancing out Bias: Achieving Fairness Through Balanced Training Xudong Han Timothy Baldwin Trevor Cohn 69 42 0 16 Sep 2021
Challenges in Detoxifying Language Models Johannes Welbl Amelia Glaese J. Uesato Sumanth Dathathri John F. J. Mellor Lisa Anne Hendricks Kirsty Anderson Pushmeet Kohli Ben Coppin Po-Sen Huang LM&MA 313 196 0 15 Sep 2021
Mitigating Language-Dependent Ethnic Bias in BERT Jaimeen Ahn Alice Oh 240 101 0 13 Sep 2021
SS-BERT: Mitigating Identity Terms Bias in Toxic Comment Classification by Utilising the Notion of "Subjectivity" and "Identity Terms" Zhixue Zhao Ziqi Zhang F. Hopfgartner 65 5 0 06 Sep 2021
Mitigation of Diachronic Bias in Fake News Detection Dataset Taichi Murayama Shoko Wakamiya Eiji Aramaki AI4CE 104 13 0 28 Aug 2021
Social Norm Bias: Residual Harms of Fairness-Aware Algorithms Myra Cheng Maria De-Arteaga Lester W. Mackey Adam Tauman Kalai FaML 98 9 0 25 Aug 2021
On Measures of Biases and Harms in NLP Sunipa Dev Emily Sheng Jieyu Zhao Aubrie Amstutz Jiao Sun ... M. Sanseverino Jiin Kim Akihiro Nishi Nanyun Peng Kai-Wei Chang 85 88 0 07 Aug 2021
Improving Counterfactual Generation for Fair Hate Speech Detection Aida Mostafazadeh Davani Ali Omrani Brendan Kennedy M. Atari Xiang Ren Morteza Dehghani 70 11 0 03 Aug 2021
Independent Ethical Assessment of Text Classification Models: A Hate Speech Detection Case Study Amitoj Singh Jingshu Chen Lihao Zhang A. Rasekh Ilana Golbin Anand Srinivasa Rao 35 1 0 19 Jul 2021
Trustworthy AI: A Computational Perspective Haochen Liu Yiqi Wang Wenqi Fan Xiaorui Liu Yaxin Li Shaili Jain Yunhao Liu Anil K. Jain Jiliang Tang FaML 192 213 0 12 Jul 2021
Learning Stable Classifiers by Transferring Unstable Features Yujia Bao Shiyu Chang Regina Barzilay OOD 82 8 0 15 Jun 2021
Mitigating Biases in Toxic Language Detection through Invariant Rationalization Yung-Sung Chuang Mingye Gao Hongyin Luo James R. Glass Hung-yi Lee Yun-Nung Chen Shang-Wen Li 50 14 0 14 Jun 2021
Ruddit: Norms of Offensiveness for English Reddit Comments Rishav Hada S. Sudhir Pushkar Mishra H. Yannakoudakis Saif M. Mohammad Ekaterina Shutova 100 37 0 10 Jun 2021
Measuring Model Fairness under Noisy Covariates: A Theoretical Perspective Flavien Prost Pranjal Awasthi Nicholas Blumm A. Kumthekar Trevor Potter Li Wei Xuezhi Wang Ed H. Chi Jilin Chen Alex Beutel 90 16 0 20 May 2021
Evaluating Gender Bias in Natural Language Inference Shanya Sharma Manan Dey Koustuv Sinha 81 41 0 12 May 2021
The Authors Matter: Understanding and Mitigating Implicit Bias in Deep Text Classification Haochen Liu Wei Jin Hamid Karimi Zitao Liu Jiliang Tang 54 32 0 06 May 2021
Explanation-Based Human Debugging of NLP Models: A Survey Piyawat Lertvittayakumjorn Francesca Toni LRM 145 79 0 30 Apr 2021
Mitigating Political Bias in Language Models Through Reinforced Calibration Ruibo Liu Chenyan Jia Jason W. Wei Guangxuan Xu Lili Wang Soroush Vosoughi 73 99 0 30 Apr 2021
Everything Has a Cause: Leveraging Causal Inference in Legal Text Analysis Xiao Liu Da Yin Yansong Feng Yuting Wu Dongyan Zhao CML AILaw 106 36 0 19 Apr 2021
Towards generalisable hate speech detection: a review on obstacles and solutions Wenjie Yin A. Zubiaga 186 169 0 17 Feb 2021
Fairness for Unobserved Characteristics: Insights from Technological Impacts on Queer Communities Nenad Tomašev Kevin R. McKee Jackie Kay Shakir Mohamed FaML 85 89 0 03 Feb 2021
Challenges in Automated Debiasing for Toxic Language Detection Xuhui Zhou Maarten Sap Swabha Swayamdipta Noah A. Smith Yejin Choi 83 142 0 29 Jan 2021
HateCheck: Functional Tests for Hate Speech Detection Models Paul Röttger B. Vidgen Dong Nguyen Zeerak Talat Helen Z. Margetts J. Pierrehumbert 131 276 0 31 Dec 2020
Confronting Abusive Language Online: A Survey from the Ethical and Human Rights Perspective S. Kiritchenko I. Nejadgholi Kathleen C. Fraser AILaw 113 89 0 22 Dec 2020
WILDS: A Benchmark of in-the-Wild Distribution Shifts Pang Wei Koh Shiori Sagawa Henrik Marklund Sang Michael Xie Marvin Zhang ... A. Kundaje Emma Pierson Sergey Levine Chelsea Finn Percy Liang OOD 331 1,452 0 14 Dec 2020
Data and its (dis)contents: A survey of dataset development and use in machine learning research Amandalynne Paullada Inioluwa Deborah Raji Emily M. Bender Emily L. Denton A. Hanna 133 532 0 09 Dec 2020
Investigating Societal Biases in a Poetry Composition System Emily Sheng David C. Uthus 83 53 0 05 Nov 2020
Towards Ethics by Design in Online Abusive Content Detection S. Kiritchenko I. Nejadgholi 79 13 0 28 Oct 2020
Selective Classification Can Magnify Disparities Across Groups Erik Jones Shiori Sagawa Pang Wei Koh Ananya Kumar Percy Liang 118 47 0 27 Oct 2020
On Transferability of Bias Mitigation Effects in Language Model Fine-Tuning Xisen Jin Francesco Barbieri Brendan Kennedy Aida Mostafazadeh Davani Leonardo Neves Xiang Ren 92 5 0 24 Oct 2020
Fair Hate Speech Detection through Evaluation of Social Group Counterfactuals Aida Mostafazadeh Davani Ali Omrani Brendan Kennedy M. Atari Xiang Ren Morteza Dehghani 55 7 0 24 Oct 2020
Recipes for Safety in Open-domain Chatbots Jing Xu Da Ju Margaret Li Y-Lan Boureau Jason Weston Emily Dinan 98 234 0 14 Oct 2020
FIND: Human-in-the-Loop Debugging Deep Text Classifiers Piyawat Lertvittayakumjorn Lucia Specia Francesca Toni 62 54 0 10 Oct 2020
Fairness in Machine Learning: A Survey Simon Caton C. Haas FaML 116 656 0 04 Oct 2020
Measure Utility, Gain Trust: Practical Advice for XAI Researcher B. Pierson M. Glenski William I. N. Sealy Dustin L. Arendt 56 28 0 27 Sep 2020
Hate Speech Detection and Racial Bias Mitigation in Social Media based on BERT model Marzieh Mozafari R. Farahbakhsh Noel Crespi 75 223 0 14 Aug 2020
Towards Debiasing Sentence Representations Paul Pu Liang Irene Li Emily Zheng Y. Lim Ruslan Salakhutdinov Louis-Philippe Morency 106 242 0 16 Jul 2020
Counterfactual Data Augmentation using Locally Factored Dynamics Silviu Pitis Elliot Creager Animesh Garg BDL OffRL 111 89 0 06 Jul 2020
Language (Technology) is Power: A Critical Survey of "Bias" in NLP Su Lin Blodgett Solon Barocas Hal Daumé Hanna M. Wallach 159 1,261 0 28 May 2020
Intersectional Bias in Hate Speech and Abusive Language Datasets Jae-Yeon Kim Carlos Ortiz S. Nam Sarah Santiago V. Datta 70 45 0 12 May 2020
Cyberbullying Detection with Fairness Constraints O. Gencoglu 93 49 0 09 May 2020
Contextualizing Hate Speech Classifiers with Post-hoc Explanation Brendan Kennedy Xisen Jin Aida Mostafazadeh Davani Morteza Dehghani Xiang Ren 135 142 0 05 May 2020
Demographics Should Not Be the Reason of Toxicity: Mitigating Discrimination in Text Classifications with Instance Weighting Guanhua Zhang Bing Bai Junqi Zhang Kun Bai Conghui Zhu Tiejun Zhao 103 71 0 29 Apr 2020
Reducing Gender Bias in Neural Machine Translation as a Domain Adaptation Problem Danielle Saunders Bill Byrne AI4CE 152 140 0 09 Apr 2020
Multilingual Twitter Corpus and Baselines for Evaluating Demographic Bias in Hate Speech Recognition Xiaolei Huang Linzi Xing Franck Dernoncourt Michael J. Paul 84 90 0 24 Feb 2020
GeBioToolkit: Automatic Extraction of Gender-Balanced Multilingual Corpus of Wikipedia Biographies Marta R. Costa-jussá P. Lin C. España-Bonet SyDa 64 25 0 10 Dec 2019
A Causal Inference Method for Reducing Gender Bias in Word Embedding Relations Zekun Yang Juan Feng FaML 60 35 0 25 Nov 2019
Queens are Powerful too: Mitigating Gender Bias in Dialogue Generation Emily Dinan Angela Fan Adina Williams Jack Urbanek Douwe Kiela Jason Weston 124 208 0 10 Nov 2019
Assessing Social and Intersectional Biases in Contextualized Word Representations Y. Tan Elisa Celis FaML 116 230 0 04 Nov 2019