Sample-Efficient Human Evaluation of Large Language Models via Maximum
Discrepancy Competition

Sample-Efficient Human Evaluation of Large Language Models via Maximum Discrepancy Competition

10 April 2024

Huajun Chen

Papers citing "Sample-Efficient Human Evaluation of Large Language Models via Maximum Discrepancy Competition"

4 / 4 papers shown

Title
Investigating Retrieval-Augmented Generation in Quranic Studies: A Study of 13 Open-Source Large Language Models Zahra Khalila Arbi Haza Nasution Winda Monika Aytug Onan Yohei Murakami Yasir Bin Ismail Radi Noor Mohammad Osmani RALM 76 0 0 20 Mar 2025
Humans or LLMs as the Judge? A Study on Judgement Biases Guiming Hardy Chen Shunian Chen Ziche Liu Feng Jiang Benyou Wang 77 91 0 16 Feb 2024
Don't Make Your LLM an Evaluation Benchmark Cheater Kun Zhou Yutao Zhu Zhipeng Chen Wentong Chen Wayne Xin Zhao Xu Chen Yankai Lin Ji-Rong Wen Jiawei Han ELM 105 136 0 03 Nov 2023
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 303 11,881 0 04 Mar 2022