Mitigating Biases for Instruction-following Language Models via Bias
Neurons Elimination

v1v2 (latest)

Mitigating Biases for Instruction-following Language Models via Bias Neurons Elimination

16 November 2023

Stanley Jungkyu Choi

ArXiv (abs)PDF HTML

Papers citing "Mitigating Biases for Instruction-following Language Models via Bias Neurons Elimination"

5 / 5 papers shown

Title
Are Bias Evaluation Methods Biased ? Lina Berrayana Sean Rooney Luis Garces-Erice Ioana Giurgiu ELM 12 0 0 20 Jun 2025
Benchmarking and Pushing the Multi-Bias Elimination Boundary of LLMs via Causal Effect Estimation-guided Debiasing Zhouhao Sun Zhiyuan Kan Xiao Ding Li Du Yang Zhao Bing Qin Ting Liu 101 0 0 22 May 2025
Information Gain-Guided Causal Intervention for Autonomous Debiasing Large Language Models Zhouhao Sun Xiao Ding Li Du Yunpeng Xu Yixuan Ma Yang Zhao Bing Qin Ting Liu 82 0 0 17 Apr 2025
Towards Robust ESG Analysis Against Greenwashing Risks: Aspect-Action Analysis with Cross-Category Generalization Keane Ong Rui Mao Deeksha Varshney Min Zhang G. Mengaldo 154 0 0 20 Feb 2025
Breaking Down Bias: On The Limits of Generalizable Pruning Strategies Sibo Ma Alejandro Salinas Peter Henderson Julian Nyarko 74 0 0 11 Feb 2025