StereoSet: Measuring stereotypical bias in pretrained language models

20 April 2020

Siva Reddy

Papers citing "StereoSet: Measuring stereotypical bias in pretrained language models"

50 / 123 papers shown

Title
Emotions in the Loop: A Survey of Affective Computing for Emotional Support Karishma Hegde Hemadri Jayalath 27 0 0 02 May 2025
BiasGuard: A Reasoning-enhanced Bias Detection Tool For Large Language Models Zhiting Fan Ruizhe Chen Zuozhu Liu 44 0 0 30 Apr 2025
Mind the Language Gap: Automated and Augmented Evaluation of Bias in LLMs for High- and Low-Resource Languages Alessio Buscemi Cedric Lothritz Sergio Morales Marcos Gomez-Vazquez Robert Clarisó Jordi Cabot German Castignani 26 0 0 19 Apr 2025
Gender and content bias in Large Language Models: a case study on Google Gemini 2.0 Flash Experimental Roberto Balestri 42 0 0 18 Mar 2025
Gender Encoding Patterns in Pretrained Language Model Representations Mahdi Zakizadeh Mohammad Taher Pilehvar 43 0 0 09 Mar 2025
Bias Similarity Across Large Language Models Hyejun Jeong Shiqing Ma Amir Houmansadr 49 0 0 20 Feb 2025
Cross-Lingual Transfer of Debiasing and Detoxification in Multilingual LLMs: An Extensive Investigation Vera Neplenbroek Arianna Bisazza Raquel Fernández 100 0 0 17 Feb 2025
Understanding and Mitigating Gender Bias in LLMs via Interpretable Neuron Editing Zeping Yu Sophia Ananiadou KELM 43 1 0 24 Jan 2025
Owls are wise and foxes are unfaithful: Uncovering animal stereotypes in vision-language models Tabinda Aman Mohammad Nadeem S. Sohail Mohammad Anas Erik Cambria VLM 59 1 0 21 Jan 2025
BLEnD: A Benchmark for LLMs on Everyday Knowledge in Diverse Cultures and Languages Junho Myung Nayeon Lee Yi Zhou Jiho Jin Rifki Afina Putri ... Seid Muhie Yimam Mohammad Taher Pilehvar N. Ousidhoum Jose Camacho-Collados Alice H. Oh 90 34 0 17 Jan 2025
LLMs are Biased Teachers: Evaluating LLM Bias in Personalized Education Iain Xie Weissburg Sathvika Anand Sharon Levy Haewon Jeong 48 1 0 17 Oct 2024
No Free Lunch: Retrieval-Augmented Generation Undermines Fairness in LLMs, Even for Vigilant Users Mengxuan Hu Hongyi Wu Zihan Guan Ronghang Zhu Dongliang Guo Daiqing Qi Sheng Li SILM 33 3 0 10 Oct 2024
Bridging Today and the Future of Humanity: AI Safety in 2024 and Beyond Shanshan Han 73 1 0 09 Oct 2024
Collapsed Language Models Promote Fairness Jingxuan Xu Wuyang Chen Linyi Li Yao Zhao Yunchao Wei 39 0 0 06 Oct 2024
The Lou Dataset -- Exploring the Impact of Gender-Fair Language in German Text Classification Andreas Waldis Joel Birrer Anne Lauscher Iryna Gurevych 23 1 0 26 Sep 2024
GenderCARE: A Comprehensive Framework for Assessing and Reducing Gender Bias in Large Language Models Kunsheng Tang Wenbo Zhou Jie Zhang Aishan Liu Gelei Deng Shuai Li Peigui Qi Weiming Zhang Tianwei Zhang Nenghai Yu 37 3 0 22 Aug 2024
Bringing AI Participation Down to Scale: A Comment on Open AIs Democratic Inputs to AI Project David Moats Chandrima Ganguly VLM 34 0 0 16 Jul 2024
Are Large Language Models Really Bias-Free? Jailbreak Prompts for Assessing Adversarial Robustness to Bias Elicitation Riccardo Cantini Giada Cosenza A. Orsino Domenico Talia AAML 50 5 0 11 Jul 2024
CEB: Compositional Evaluation Benchmark for Fairness in Large Language Models Song Wang Peng Wang Tong Zhou Yushun Dong Zhen Tan Jundong Li CoGe 44 6 0 02 Jul 2024
Exploring Safety-Utility Trade-Offs in Personalized Language Models Anvesh Rao Vijjini Somnath Basu Roy Chowdhury Snigdha Chaturvedi 35 6 0 17 Jun 2024
Do Large Language Models Discriminate in Hiring Decisions on the Basis of Race, Ethnicity, and Gender? Haozhe An Christabel Acquaye Colin Wang Zongxia Li Rachel Rudinger 36 12 0 15 Jun 2024
Towards Understanding Task-agnostic Debiasing Through the Lenses of Intrinsic Bias and Forgetfulness Guangliang Liu Milad Afshari Xitong Zhang Zhiyu Xue Avrajit Ghosh Bidhan Bashyal Rongrong Wang K. Johnson 27 0 0 06 Jun 2024
Uncovering Bias in Large Vision-Language Models at Scale with Counterfactuals Phillip Howard Kathleen C. Fraser Anahita Bhiwandiwalla S. Kiritchenko 48 9 0 30 May 2024
GPT is Not an Annotator: The Necessity of Human Annotation in Fairness Benchmark Construction Virginia K. Felkner Jennifer A. Thompson Jonathan May 32 9 0 24 May 2024
MBIAS: Mitigating Bias in Large Language Models While Retaining Context Shaina Raza Ananya Raval Veronica Chatrath 36 6 0 18 May 2024
Quite Good, but Not Enough: Nationality Bias in Large Language Models -- A Case Study of ChatGPT Shucheng Zhu Weikang Wang Ying Liu 29 5 0 11 May 2024
Identifying Fairness Issues in Automatically Generated Testing Content Kevin Stowe Benny Longwill Alyssa Francis Tatsuya Aoyama Debanjan Ghosh Swapna Somasundaran 33 1 0 23 Apr 2024
AdvisorQA: Towards Helpful and Harmless Advice-seeking Question Answering with Collective Intelligence Minbeom Kim Hwanhee Lee Joonsuk Park Hwaran Lee Kyomin Jung 32 1 0 18 Apr 2024
REQUAL-LM: Reliability and Equity through Aggregation in Large Language Models Sana Ebrahimi N. Shahbazi Abolfazl Asudeh 24 1 0 17 Apr 2024
GenEARL: A Training-Free Generative Framework for Multimodal Event Argument Role Labeling Hritik Bansal Po-Nien Kung P. Brantingham Weisheng Wang Miao Zheng VLM 24 1 0 07 Apr 2024
Revisiting The Classics: A Study on Identifying and Rectifying Gender Stereotypes in Rhymes and Poems Aditya Narayan Sankaran Vigneshwaran Shankaran Sampath Lonka Rajesh Sharma 30 0 0 18 Mar 2024
COBIAS: Contextual Reliability in Bias Assessment Priyanshul Govil Hemang Jain Vamshi Bonagiri Aman Chadha Ponnurangam Kumaraguru Manas Gaur S. Dey 38 2 0 22 Feb 2024
LLM-Assisted Content Conditional Debiasing for Fair Text Embedding Wenlong Deng Blair Chen Beidi Zhao Chiyu Zhang Xiaoxiao Li Christos Thrampoulidis 31 0 0 22 Feb 2024
Measuring Social Biases in Masked Language Models by Proxy of Prediction Quality Rahul Zalkikar Kanchan Chandra 26 1 0 21 Feb 2024
Bias in Language Models: Beyond Trick Tests and Toward RUTEd Evaluation Kristian Lum Jacy Reese Anthis Chirag Nagpal Alex DÁmour Alexander D’Amour 29 13 0 20 Feb 2024
ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs Fengqing Jiang Zhangchen Xu Luyao Niu Zhen Xiang Bhaskar Ramasubramanian Bo Li Radha Poovendran 26 86 0 19 Feb 2024
Adversarial Nibbler: An Open Red-Teaming Method for Identifying Diverse Harms in Text-to-Image Generation Jessica Quaye Alicia Parrish Oana Inel Charvi Rastogi Hannah Rose Kirk ... Nathan Clement Rafael Mosquera Juan Ciro Vijay Janapa Reddi Lora Aroyo 29 7 0 14 Feb 2024
Evaluating Gender Bias in Large Language Models via Chain-of-Thought Prompting Masahiro Kaneko Danushka Bollegala Naoaki Okazaki Timothy Baldwin LRM 25 27 0 28 Jan 2024
Open Models, Closed Minds? On Agents Capabilities in Mimicking Human Personalities through Open Large Language Models Lucio La Cava Andrea Tagarelli LLMAG AI4CE 55 13 0 13 Jan 2024
Multilingual large language models leak human stereotypes across language boundaries Yang Trista Cao Anna Sotnikova Jieyu Zhao Linda X. Zou Rachel Rudinger Hal Daumé PILM 13 10 0 12 Dec 2023
JAB: Joint Adversarial Prompting and Belief Augmentation Ninareh Mehrabi Palash Goyal Anil Ramakrishna Jwala Dhamala Shalini Ghosh Richard Zemel Kai-Wei Chang Aram Galstyan Rahul Gupta AAML 23 7 0 16 Nov 2023
Alquist 5.0: Dialogue Trees Meet Generative Models. A Novel Approach for Enhancing SocialBot Conversations Ondrej Kobza Jan Cuhel Tommaso Gargiani David Herel Petr Marek 16 3 0 24 Oct 2023
Emerging Challenges in Personalized Medicine: Assessing Demographic Effects on Biomedical Question Answering Systems Sagi Shaier Kevin Bennett Lawrence E Hunter K. Wense 21 0 0 16 Oct 2023
Beyond Testers' Biases: Guiding Model Testing with Knowledge Bases using LLMs Chenyang Yang Rishabh Rustogi Rachel A. Brower-Sinning Grace A. Lewis Christian Kastner Tongshuang Wu KELM 30 11 0 14 Oct 2023
OpinionGPT: Modelling Explicit Biases in Instruction-Tuned LLMs Patrick Haller Ansar Aynetdinov A. Akbik 26 24 0 07 Sep 2023
Bias Testing and Mitigation in LLM-based Code Generation Dong Huang Qingwen Bu Jie M. Zhang Xiaofei Xie Junjie Chen Heming Cui 36 20 0 03 Sep 2023
Thesis Distillation: Investigating The Impact of Bias in NLP Models on Hate Speech Detection Fatma Elsafoury 21 3 0 31 Aug 2023
FairMonitor: A Four-Stage Automatic Framework for Detecting Stereotypes and Biases in Large Language Models Yanhong Bai Jiabao Zhao Jinxin Shi Tingjiang Wei Xingjiao Wu Liangbo He 33 0 0 21 Aug 2023
A Survey on Fairness in Large Language Models Yingji Li Mengnan Du Rui Song Xin Wang Ying Wang ALM 37 59 0 20 Aug 2023
The Unequal Opportunities of Large Language Models: Revealing Demographic Bias through Job Recommendations A. Salinas Parth Vipul Shah Yuzhong Huang Robert McCormack Fred Morstatter 24 32 0 03 Aug 2023