Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective

20 February 2025

Papers citing "Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective"

5 / 5 papers shown

Title
Jigsaw Puzzles: Splitting Harmful Questions to Jailbreak Large Language Models Hao Yang Lizhen Qu Ehsan Shareghi Gholamreza Haffari AAML 34 1 0 15 Oct 2024
From Classification to Generation: Insights into Crosslingual Retrieval Augmented ICL Xiaoqian Li Ercong Nie Sheng Liang RALM LRM 80 6 0 11 Nov 2023
Towards Making the Most of ChatGPT for Machine Translation Keqin Peng Liang Ding Qihuang Zhong Li Shen Xuebo Liu Min Zhang Y. Ouyang Dacheng Tao LRM 79 132 0 24 Mar 2023
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 301 11,730 0 04 Mar 2022
Latent Hatred: A Benchmark for Understanding Implicit Hate Speech Mai Elsherief Caleb Ziems D. Muchlinski Vaishnavi Anupindi Jordyn Seybolt M. D. Choudhury Diyi Yang 77 233 0 11 Sep 2021