On Measuring Social Biases in Sentence Encoders

25 March 2019

Papers citing "On Measuring Social Biases in Sentence Encoders"

50 / 367 papers shown

Title
Semantic Properties of cosine based bias scores for word embeddings Sarah Schröder Alexander Schulz Fabian Hinder Barbara Hammer 29 1 0 27 Jan 2024
Robust Evaluation Measures for Evaluating Social Biases in Masked Language Models Yang Liu 15 2 0 21 Jan 2024
FAIR Enough: How Can We Develop and Assess a FAIR-Compliant Dataset for Large Language Models' Training? Shaina Raza Shardul Ghuge Chen Ding Elham Dolatabadi D. Pandya SyDa 15 9 0 19 Jan 2024
Parameter-Efficient Detoxification with Contrastive Decoding Tong Niu Caiming Xiong Semih Yavuz Yingbo Zhou 12 12 0 13 Jan 2024
Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs Shengbang Tong Zhuang Liu Yuexiang Zhai Yi-An Ma Yann LeCun Saining Xie VLM MLLM 27 283 0 11 Jan 2024
A Group Fairness Lens for Large Language Models Guanqun Bi Lei Shen Yuqiang Xie Yanan Cao Tiangang Zhu Xiao-feng He ALM 26 4 0 24 Dec 2023
GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language Models Jiaxu Zhao Meng Fang Shirui Pan Wenpeng Yin Mykola Pechenizkiy ELM 16 11 0 11 Dec 2023
Weakly Supervised Detection of Hallucinations in LLM Activations Miriam Rateike C. Cintas John Wamburu Tanya Akumu Skyler Speakman 18 11 0 05 Dec 2023
Tackling Bias in Pre-trained Language Models: Current Trends and Under-represented Societies Vithya Yogarajan Gillian Dobbie Te Taka Keegan R. Neuwirth ALM 37 11 0 03 Dec 2023
What Do Llamas Really Think? Revealing Preference Biases in Language Model Representations Raphael Tang Xinyu Crystina Zhang Jimmy J. Lin Ferhan Ture 30 6 0 30 Nov 2023
Towards Auditing Large Language Models: Improving Text-based Stereotype Detection Wu Zekun Sahan Bulathwela Adriano Soares Koshiyama 17 12 0 23 Nov 2023
General Phrase Debiaser: Debiasing Masked Language Models at a Multi-Token Level Bingkang Shi Xiaodan Zhang Dehan Kong Yulei Wu Zongzhen Liu Honglei Lyu Longtao Huang AI4CE 25 2 0 23 Nov 2023
Fair Text Classification with Wasserstein Independence Thibaud Leteno Antoine Gourru Charlotte Laclau Rémi Emonet Christophe Gravier FaML 22 2 0 21 Nov 2023
Bias A-head? Analyzing Bias in Transformer-Based Language Model Attention Heads Yi Yang Hanyu Duan Ahmed Abbasi John P. Lalor K. Tam 11 5 0 17 Nov 2023
Latent Feature-based Data Splits to Improve Generalisation Evaluation: A Hate Speech Detection Case Study Maike Zufle Verna Dankers Ivan Titov 22 0 0 16 Nov 2023
From Classification to Generation: Insights into Crosslingual Retrieval Augmented ICL Xiaoqian Li Ercong Nie Sheng Liang RALM LRM 100 10 0 11 Nov 2023
Step by Step to Fairness: Attributing Societal Bias in Task-oriented Dialogue Systems Hsuan Su Rebecca Qian Chinnadhurai Sankar Shahin Shayandeh Shang-Tse Chen Hung-yi Lee Daniel M. Bikel 18 0 0 11 Nov 2023
All Should Be Equal in the Eyes of Language Models: Counterfactually Aware Fair Text Generation Pragyan Banerjee Abhinav Java Surgan Jandial Simra Shahid Shaz Furniturewala Balaji Krishnamurthy S. Bhatia 22 3 0 09 Nov 2023
Uncovering Intermediate Variables in Transformers using Circuit Probing Michael A. Lepori Thomas Serre Ellie Pavlick 70 7 0 07 Nov 2023
Unraveling Downstream Gender Bias from Large Language Models: A Study on AI Educational Writing Assistance Thiemo Wambsganss Xiaotian Su Vinitra Swamy Seyed Parsa Neshaei Roman Rietsche Tanja Kaser 24 18 0 06 Nov 2023
Model-based Counterfactual Generator for Gender Bias Mitigation E. Tokpo T. Calders 14 0 0 06 Nov 2023
Pre-trained Speech Processing Models Contain Human-Like Biases that Propagate to Speech Emotion Recognition Isaac Slaughter Craig Greenberg Reva Schwartz Aylin Caliskan 22 4 0 29 Oct 2023
Do Not Harm Protected Groups in Debiasing Language Representation Models Chloe Qinyu Zhu Rickard Stureborg Brandon Fain 14 0 0 27 Oct 2023
Geographical Erasure in Language Generation Pola Schwöbel Jacek Golebiowski Michele Donini Cédric Archambeau Danish Pruthi 8 5 0 23 Oct 2023
Towards Detecting Contextual Real-Time Toxicity for In-Game Chat Zachary Yang Nicolas Grenan-Godbout Reihaneh Rabbany 14 3 0 20 Oct 2023
A Predictive Factor Analysis of Social Biases and Task-Performance in Pretrained Masked Language Models Yi Zhou Jose Camacho-Collados Danushka Bollegala 81 6 0 19 Oct 2023
Identifying and Adapting Transformer-Components Responsible for Gender Bias in an English Language Model Abhijith Chintam Rahel Beloch Willem H. Zuidema Michael Hanna Oskar van der Wal 18 16 0 19 Oct 2023
Learning from Red Teaming: Gender Bias Provocation and Mitigation in Large Language Models Hsuan Su Cheng-Chu Cheng Hua Farn Shachi H. Kumar Saurav Sahay Shang-Tse Chen Hung-yi Lee 21 4 0 17 Oct 2023
Unlocking Bias Detection: Leveraging Transformer-Based Models for Content Analysis Shaina Raza Oluwanifemi Bamgbose Veronica Chatrath Shardul Ghuge Yan Sidyakin Abdullah Y. Muaad 11 11 0 30 Sep 2023
Survey of Social Bias in Vision-Language Models Nayeon Lee Yejin Bang Holy Lovenia Samuel Cahyawijaya Wenliang Dai Pascale Fung VLM 36 16 0 24 Sep 2023
Are You Worthy of My Trust?: A Socioethical Perspective on the Impacts of Trustworthy AI Systems on the Environment and Human Society Jamell Dacon SILM 13 1 0 18 Sep 2023
Investigating Subtler Biases in LLMs: Ageism, Beauty, Institutional, and Nationality Bias in Generative Models M. Kamruzzaman M. M. I. Shovon Gene Louis Kim 38 25 0 16 Sep 2023
Challenges in Annotating Datasets to Quantify Bias in Under-represented Society Vithya Yogarajan Gillian Dobbie Timothy Pistotti Joshua Bensemann Kobe Knowles 15 2 0 11 Sep 2023
Bias and Fairness in Large Language Models: A Survey Isabel O. Gallegos Ryan A. Rossi Joe Barrow Md Mehrab Tanjim Sungchul Kim Franck Dernoncourt Tong Yu Ruiyi Zhang Nesreen Ahmed AILaw 19 485 0 02 Sep 2023
Thesis Distillation: Investigating The Impact of Bias in NLP Models on Hate Speech Detection Fatma Elsafoury 21 3 0 31 Aug 2023
Gender bias and stereotypes in Large Language Models Hadas Kotek Rikker Dockum David Q. Sun 23 204 0 28 Aug 2023
Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs Yuxia Wang Haonan Li Xudong Han Preslav Nakov Timothy Baldwin 33 102 0 25 Aug 2023
Mind vs. Mouth: On Measuring Re-judge Inconsistency of Social Bias in Large Language Models Yachao Zhao Bo Wang Dongming Zhao Kun Huang Yan Wang Ruifang He Yuexian Hou 29 4 0 24 Aug 2023
Systematic Offensive Stereotyping (SOS) Bias in Language Models Fatma Elsafoury 11 2 0 21 Aug 2023
FairMonitor: A Four-Stage Automatic Framework for Detecting Stereotypes and Biases in Large Language Models Yanhong Bai Jiabao Zhao Jinxin Shi Tingjiang Wei Xingjiao Wu Liangbo He 30 0 0 21 Aug 2023
A Survey on Fairness in Large Language Models Yingji Li Mengnan Du Rui Song Xin Wang Ying Wang ALM 37 59 0 20 Aug 2023
CMD: a framework for Context-aware Model self-Detoxification Zecheng Tang Keyan Zhou Juntao Li Yuyang Ding Pinzheng Wang Bowen Yan Minzhang MU 18 5 0 16 Aug 2023
Gender-tuning: Empowering Fine-tuning for Debiasing Pre-trained Language Models Somayeh Ghanbarzadeh Yan-ping Huang Hamid Palangi R. C. Moreno Hamed Khanpour 17 12 0 20 Jul 2023
National Origin Discrimination in Deep-learning-powered Automated Resume Screening Sihang Li Kuangzheng Li Haibing Lu 6 3 0 13 Jul 2023
Evaluating Biased Attitude Associations of Language Models in an Intersectional Context Shiva Omrani Sabbaghi Robert Wolfe Aylin Caliskan 18 22 0 07 Jul 2023
Prompt Tuning Pushes Farther, Contrastive Learning Pulls Closer: A Two-Stage Approach to Mitigate Social Biases Yingji Li Mengnan Du Xin Wang Ying Wang 45 26 0 04 Jul 2023
Gender Bias in BERT -- Measuring and Analysing Biases through Sentiment Rating in a Realistic Downstream Classification Task Sophie F. Jentzsch Cigdem Turan 8 31 0 27 Jun 2023
Privacy and Fairness in Federated Learning: on the Perspective of Trade-off Huiqiang Chen Tianqing Zhu Tao Zhang Wanlei Zhou Philip S. Yu FedML 22 43 0 25 Jun 2023
Mass-Producing Failures of Multimodal Systems with Language Models Shengbang Tong Erik Jones Jacob Steinhardt 30 33 0 21 Jun 2023
TrustGPT: A Benchmark for Trustworthy and Responsible Large Language Models Yue Huang Qihui Zhang Philip S. Y Lichao Sun 13 46 0 20 Jun 2023