Are Large Language Models Reliable Judges? A Study on the Factuality Evaluation Capabilities of LLMs

1 November 2023

Papers citing "Are Large Language Models Reliable Judges? A Study on the Factuality Evaluation Capabilities of LLMs"

6 / 6 papers shown

Title
Better To Ask in English? Evaluating Factual Accuracy of Multilingual LLMs in English and Low-Resource Languages Pritika Rohera Chaitrali Ginimav Gayatri Sawant Raviraj Joshi 21 0 0 28 Apr 2025
LLMs Can Generate a Better Answer by Aggregating Their Own Responses Zichong Li Xinyu Feng Yuheng Cai Zixuan Zhang Tianyi Liu Chen Liang Weizhu Chen Haoyu Wang T. Zhao LRM 48 1 0 06 Mar 2025
Improving Factual Consistency in Summarization with Compression-Based Post-Editing Alexander R. Fabbri Prafulla Kumar Choubey Jesse Vig Chien-Sheng Wu Caiming Xiong HILM KELM 32 17 0 11 Nov 2022
The Factual Inconsistency Problem in Abstractive Text Summarization: A Survey Yi-Chong Huang Xiachong Feng Xiaocheng Feng Bing Qin HILM 115 90 0 30 Apr 2021
Understanding Factuality in Abstractive Summarization with FRANK: A Benchmark for Factuality Metrics Artidoro Pagnoni Vidhisha Balachandran Yulia Tsvetkov HILM 213 305 0 27 Apr 2021
Text Summarization with Pretrained Encoders Yang Liu Mirella Lapata MILM 245 1,417 0 22 Aug 2019