Your fairness may vary: Pretrained language model fairness in toxic text classification

3 August 2021

Papers citing "Your fairness may vary: Pretrained language model fairness in toxic text classification"

34 / 34 papers shown

Title
HInter: Exposing Hidden Intersectional Bias in Large Language Models Badr Souani E. Soremekun Mike Papadakis Setsuko Yokoyama Sudipta Chattopadhyay Yves Le Traon 41 0 0 15 Mar 2025
Different Horses for Different Courses: Comparing Bias Mitigation Algorithms in ML Prakhar Ganesh Usman Gohar Lu Cheng G. Farnadi FaML 36 2 0 17 Nov 2024
fairBERTs: Erasing Sensitive Information Through Semantic and Fairness-aware Perturbations Jinfeng Li YueFeng Chen Xiangyu Liu Longtao Huang Rong Zhang Hui Xue AAML 19 0 0 11 Jul 2024
The Trade-off between Performance, Efficiency, and Fairness in Adapter Modules for Text Classification Minh Duc Bui K. Wense 26 0 0 03 May 2024
Threats, Attacks, and Defenses in Machine Unlearning: A Survey Ziyao Liu Huanyi Ye Chen Chen Yongsen Zheng K. Lam AAML MU 29 28 0 20 Mar 2024
Detectors for Safe and Reliable LLMs: Implementations, Uses, and Limitations Swapnaja Achintalwar Adriana Alvarado Garcia Ateret Anaby-Tavor Ioana Baldini Sara E. Berger ... Aashka Trivedi Kush R. Varshney Dennis L. Wei Shalisha Witherspooon Marcel Zalmanovici 25 10 0 09 Mar 2024
Rapid Optimization for Jailbreaking LLMs via Subconscious Exploitation and Echopraxia Guangyu Shen Shuyang Cheng Kai-xian Zhang Guanhong Tao Shengwei An Lu Yan Zhuo Zhang Shiqing Ma Xiangyu Zhang 15 10 0 08 Feb 2024
Alternative Speech: Complementary Method to Counter-Narrative for Better Discourse Seungyoon Lee Dahyun Jung Chanjun Park Seolhwa Lee Heu-Jeoung Lim 26 1 0 26 Jan 2024
SocialStigmaQA: A Benchmark to Uncover Stigma Amplification in Generative Language Models Manish Nagireddy Lamogha Chiazor Moninder Singh Ioana Baldini 11 17 0 12 Dec 2023
FairSISA: Ensemble Post-Processing to Improve Fairness of Unlearning in LLMs S. Kadhe Anisa Halimi Ambrish Rawat Nathalie Baracaldo MU 14 7 0 12 Dec 2023
Grounding Foundation Models through Federated Transfer Learning: A General Framework Yan Kang Tao Fan Hanlin Gu Xiaojin Zhang Lixin Fan Qiang Yang AI4CE 68 19 0 29 Nov 2023
An Empirical Investigation into Benchmarking Model Multiplicity for Trustworthy Machine Learning: A Case Study on Image Classification Prakhar Ganesh 34 5 0 24 Nov 2023
Selecting Shots for Demographic Fairness in Few-Shot Learning with Large Language Models Carlos Alejandro Aguirre Kuleen Sasse Isabel Cachola Mark Dredze 26 1 0 14 Nov 2023
Location-Aware Visual Question Generation with Lightweight Models Nicholas Collin Suwono Justin Chih-Yao Chen Tun-Min Hung T. Huang I-Bin Liao Yung-Hui Li Lun-Wei Ku Shao-Hua Sun 13 4 0 23 Oct 2023
A Survey on Fairness in Large Language Models Yingji Li Mengnan Du Rui Song Xin Wang Ying Wang ALM 41 59 0 20 Aug 2023
On The Impact of Machine Learning Randomness on Group Fairness Prakhar Ganesh Hong Chang Martin Strobel Reza Shokri FaML 16 30 0 09 Jul 2023
How do different tokenizers perform on downstream tasks in scriptio continua languages?: A case study in Japanese T. Fujii Koki Shibata Atsuki Yamaguchi Terufumi Morishita Yasuhiro Sogawa 18 13 0 16 Jun 2023
Being Right for Whose Right Reasons? Terne Sasha Thorn Jakobsen Laura Cabello Anders Søgaard 29 10 0 01 Jun 2023
On Bias and Fairness in NLP: Investigating the Impact of Bias and Debiasing in Language Models on the Fairness of Toxicity Detection Fatma Elsafoury Stamos Katsigiannis 30 1 0 22 May 2023
Keeping Up with the Language Models: Robustness-Bias Interplay in NLI Data and Models Ioana Baldini Chhavi Yadav Payel Das Kush R. Varshney MLAU 30 3 0 22 May 2023
How does the task complexity of masked pretraining objectives affect downstream performance? Atsuki Yamaguchi Hiroaki Ozaki Terufumi Morishita Gaku Morio Yasuhiro Sogawa 12 2 0 18 May 2023
On the Origins of Bias in NLP through the Lens of the Jim Code Fatma Elsafoury Gavin Abercrombie 28 4 0 16 May 2023
Distilling Script Knowledge from Large Language Models for Constrained Language Planning Siyu Yuan Jiangjie Chen Ziquan Fu Xuyang Ge Soham Shah C. R. Jankowski Yanghua Xiao Deqing Yang 38 46 0 09 May 2023
Globalizing Fairness Attributes in Machine Learning: A Case Study on Health in Africa M. Asiedu Awa Dieng Abigail Oppong Margaret Nagawa Sanmi Koyejo Katherine A. Heller 45 7 0 05 Apr 2023
Fairness Evaluation in Text Classification: Machine Learning Practitioner Perspectives of Individual and Group Fairness Zahra Ashktorab Benjamin Hoover Mayank Agarwal Casey Dugan Werner Geyer Han Yang Mikhail Yurochkin FaML 23 17 0 01 Mar 2023
Linking convolutional kernel size to generalization bias in face analysis CNNs Hao Liang J. O. Caro Vikram Maheshri Ankit B. Patel Guha Balakrishnan CVBM CML 13 0 0 07 Feb 2023
Nano: Nested Human-in-the-Loop Reward Learning for Few-shot Language Model Control Xiang Fan Yiwei Lyu Paul Pu Liang Ruslan Salakhutdinov Louis-Philippe Morency BDL 18 6 0 10 Nov 2022
The Tail Wagging the Dog: Dataset Construction Biases of Social Bias Benchmarks Nikil Selvam Sunipa Dev Daniel Khashabi Tushar Khot Kai-Wei Chang ALM 13 25 0 18 Oct 2022
Systematic Evaluation of Predictive Fairness Xudong Han Aili Shen Trevor Cohn Timothy Baldwin Lea Frermann 19 7 0 17 Oct 2022
Voteñ'Rank: Revision of Benchmarking with Social Choice Theory Mark Rofin Vladislav Mikhailov Mikhail Florinskiy A. Kravchenko E. Tutubalina Tatiana Shavrina Daniel Karabekyan Ekaterina Artemova 24 7 0 11 Oct 2022
Conditional Supervised Contrastive Learning for Fair Text Classification Jianfeng Chi Will Shand Yaodong Yu Kai-Wei Chang Han Zhao Yuan Tian FaML 41 14 0 23 May 2022
Carbon Emissions and Large Neural Network Training David A. Patterson Joseph E. Gonzalez Quoc V. Le Chen Liang Lluís-Miquel Munguía D. Rothchild David R. So Maud Texier J. Dean AI4CE 239 643 0 21 Apr 2021
Mapping the Space of Chemical Reactions Using Attention-Based Neural Networks P. Schwaller Daniel Probst Alain C. Vaucher Vishnu H. Nair D. Kreutter Teodoro Laino J. Reymond 139 223 0 09 Dec 2020
GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding Alex Jinpeng Wang Amanpreet Singh Julian Michael Felix Hill Omer Levy Samuel R. Bowman ELM 294 6,950 0 20 Apr 2018