MBIAS: Mitigating Bias in Large Language Models While Retaining Context

18 May 2024

Papers citing "MBIAS: Mitigating Bias in Large Language Models While Retaining Context"

10 / 10 papers shown

Title
Reasoning Towards Fairness: Mitigating Bias in Language Models through Reasoning-Guided Fine-Tuning Sanchit Kabra Akshita Jha Chandan K. Reddy LRM 19 0 0 08 Apr 2025
Auto-Search and Refinement: An Automated Framework for Gender Bias Mitigation in Large Language Models Yue Xu Chengyan Fu Li Xiong Sibei Yang Wenjie Wang 42 0 0 17 Feb 2025
'Since Lawyers are Males..': Examining Implicit Gender Bias in Hindi Language Generation by LLMs Ishika Joshi Ishita Gupta Adrita Dey Tapan Parikh AI4CE 18 1 0 20 Sep 2024
Content Moderation by LLM: From Accuracy to Legitimacy Tao Huang AILaw 22 3 0 05 Sep 2024
The Effectiveness of LLMs as Annotators: A Comparative Overview and Empirical Analysis of Direct Representation Maja Pavlovic Massimo Poesio 14 17 0 02 May 2024
PILLOW: Enhancing Efficient Instruction Fine-tuning via Prompt Matching Zhenting Qi Xiaoyu Tan Shaojie Shi Chao Qu Yinghui Xu Yuan Qi ALM 30 10 0 09 Dec 2023
Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned Deep Ganguli Liane Lovitt John Kernion Amanda Askell Yuntao Bai ... Nicholas Joseph Sam McCandlish C. Olah Jared Kaplan Jack Clark 216 327 0 23 Aug 2022
"I'm sorry to hear that": Finding New Biases in Language Models with a Holistic Descriptor Dataset Eric Michael Smith Melissa Hall Melanie Kambadur Eleonora Presani Adina Williams 62 128 0 18 May 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 301 11,730 0 04 Mar 2022
Self-Diagnosis and Self-Debiasing: A Proposal for Reducing Corpus-Based Bias in NLP Timo Schick Sahana Udupa Hinrich Schütze 251 374 0 28 Feb 2021