v1v2 (latest)

CEB: Compositional Evaluation Benchmark for Fairness in Large Language Models

2 July 2024

Song Wang

Jundong Li

ArXiv (abs)PDF HTML Github (13★)

Papers citing "CEB: Compositional Evaluation Benchmark for Fairness in Large Language Models"

50 / 63 papers shown

Evaluating LLMs for Demographic-Targeted Social Bias Detection: A Comprehensive Benchmark Study

244

10 Apr 2026

A Hierarchical Imprecise Probability Approach to Reliability Assessment of Large Language Models

Robab Aghazadeh-Chakherlou

208

01 Nov 2025

BiasFreeBench: a Benchmark for Mitigating Bias in Large Language Model Responses

149

30 Sep 2025

Is Your Model Fairly Certain? Uncertainty-Aware Fairness Evaluation for LLMs

392

29 May 2025

The Other Side of the Coin: Exploring Fairness in Retrieval-Augmented Generation

350

11 Apr 2025

Towards Large Language Models that Benefit for All: Benchmarking Group Fairness in Reward Models

405

10 Mar 2025

FairMT-Bench: Benchmarking Fairness for Multi-turn Dialogue in Conversational LLMsInternational Conference on Learning Representations (ICLR), 2024

326

25 Oct 2024

LabSafety Bench: Benchmarking LLMs on Safety Issues in Scientific Labs

...

567

18 Oct 2024

MedHalu: Hallucinations in Responses to Healthcare Queries by Large Language ModelsSocial Science Research Network (SSRN), 2025

464

29 Sep 2024

Uncertainty Aware Learning for Language Model AlignmentAnnual Meeting of the Association for Computational Linguistics (ACL), 2024

Qi Zhang

348

07 Jun 2024

Safety in Graph Machine Learning: Threats and Safeguards

410

17 May 2024

Fairness in Large Language Models: A Taxonomic Survey

Zhibo Chu

Sribala Vidyadhari Chinta

Wenbin Zhang

AILaw

296

102

31 Mar 2024

Large Language Models for Data Annotation: A Survey

Huan Liu

478

21 Feb 2024

Evaluating Gender Bias in Large Language Models via Chain-of-Thought Prompting

320

28 Jan 2024

In-context Learning with Retrieved Demonstrations for Language Models: A Survey

852

21 Jan 2024

Sparsity-Guided Holistic Explanation for LLMs with Interpretable Inference-Time Intervention

Zhen Tan

Tianlong Chen

Zhenyu Zhang

Huan Liu

254

22 Dec 2023

Interpreting Pretrained Language Models via Concept Bottlenecks

Huan Liu

267

08 Nov 2023

Noise-Robust Fine-Tuning of Pretrained Language Models via External GuidanceConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

247

02 Nov 2023

Knowledge Editing for Large Language Models: A SurveyACM Computing Surveys (ACM Comput. Surv.), 2023

540

235

24 Oct 2023

Mistral 7B

Albert Q. Jiang

Alexandre Sablayrolles

A. Mensch

Chris Bamford

Devendra Singh Chaplot

...

519

3,278

10 Oct 2023

Bias and Fairness in Large Language Models: A SurveyComputational Linguistics (CL), 2023

Isabel O. Gallegos

Ryan Rossi

Joe Barrow

Md Mehrab Tanjim

Sungchul Kim

482

1,011

02 Sep 2023

Fair Few-shot Learning with Auxiliary SetsEuropean Conference on Artificial Intelligence (ECAI), 2023

192

28 Aug 2023

A Survey on Fairness in Large Language Models

Ying Wang

474

110

20 Aug 2023

Llama 2: Open Foundation and Fine-Tuned Chat Models

Louis Martin

...

Sharan Narang

Sergey Edunov

12.3K

16,448

18 Jul 2023

A Survey on Evaluation of Large Language ModelsACM Transactions on Intelligent Systems and Technology (ACM TIST), 2023

...

Yue Zhang

Philip S. Yu

897

3,210

06 Jul 2023

DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT ModelsNeural Information Processing Systems (NeurIPS), 2023

Chulin Xie

...

581

599

20 Jun 2023

TrustGPT: A Benchmark for Trustworthy and Responsible Large Language Models

Yue Huang

Qihui Zhang

Philip S. Y

Lichao Sun

308

20 Jun 2023

483

22 May 2023

Should ChatGPT be Biased? Challenges and Risks of Bias in Large Language ModelsFirst Monday (FM), 2023

Emilio Ferrara

SILM

551

360

07 Apr 2023

GPT-4 Technical Report

...

5.3K

23,506

15 Mar 2023

Interpreting Unfairness in Graph Neural Networks via Training Node AttributionAAAI Conference on Artificial Intelligence (AAAI), 2022

Ninghao Liu

251

25 Nov 2022

Scaling Instruction-Finetuned Language ModelsJournal of machine learning research (JMLR), 2022

...

1.8K

4,038

20 Oct 2022

In conversation with Artificial Intelligence: aligning language models with human valuesPhilosophy & Technology (PT), 2022

Atoosa Kasirzadeh

Iason Gabriel

448

142

01 Sep 2022

Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned

Deep Ganguli

...

679

717

23 Aug 2022

On Structural Explanation of Bias in Graph Neural NetworksKnowledge Discovery and Data Mining (KDD), 2022

238

24 Jun 2022

"I'm sorry to hear that": Finding New Biases in Language Models with a Holistic Descriptor DatasetConference on Empirical Methods in Natural Language Processing (EMNLP), 2022

375

191

18 May 2022

Fairness in Graph Mining: A SurveyIEEE Transactions on Knowledge and Data Engineering (TKDE), 2022

422

166

21 Apr 2022

Red Teaming Language Models with Language ModelsConference on Empirical Methods in Natural Language Processing (EMNLP), 2022

Saffron Huang

623

976

07 Feb 2022

BBQ: A Hand-Built Bias Benchmark for Question Answering

669

674

15 Oct 2021

Collecting a Large-Scale Gender Bias Dataset for Coreference Resolution and Machine TranslationConference on Empirical Methods in Natural Language Processing (EMNLP), 2021

Shahar Levy

Koren Lazar

Gabriel Stanovsky

421

08 Sep 2021

RedditBias: A Real-World Resource for Bias Evaluation and Debiasing of Conversational Language ModelsAnnual Meeting of the Association for Computational Linguistics (ACL), 2021

317

219

07 Jun 2021

Unmasking the Mask -- Evaluating Social Biases in Masked Language ModelsAAAI Conference on Artificial Intelligence (AAAI), 2021

Masahiro Kaneko

Danushka Bollegala

316

15 Apr 2021

Fair Mixup: Fairness via InterpolationInternational Conference on Learning Representations (ICLR), 2021

Ching-Yao Chuang

Youssef Mroueh

242

159

11 Mar 2021

Towards a Unified Framework for Fair and Stable Graph Representation LearningConference on Uncertainty in Artificial Intelligence (UAI), 2021

Chirag Agarwal

Himabindu Lakkaraju

Marinka Zitnik

421

194

25 Feb 2021

BOLD: Dataset and Metrics for Measuring Biases in Open-Ended Language GenerationConference on Fairness, Accountability and Transparency (FAccT), 2021

402

537

27 Jan 2021

Persistent Anti-Muslim Bias in Large Language ModelsAAAI/ACM Conference on AI, Ethics, and Society (AIES), 2021

523

678

14 Jan 2021

Measuring and Reducing Gendered Correlations in Pre-trained Models

722

303

12 Oct 2020

CrowS-Pairs: A Challenge Dataset for Measuring Social Biases in Masked Language ModelsConference on Empirical Methods in Natural Language Processing (EMNLP), 2020

924

902

30 Sep 2020

RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language ModelsFindings (Findings), 2020

Yejin Choi

1.3K

1,599

24 Sep 2020

Unfairness Discovery and Prevention For Few-Shot Regression

Chengli Zhao

Feng Chen

187

23 Sep 2020