Title
Chatbot Arena Meets Nuggets: Towards Explanations and Diagnostics in the Evaluation of LLM Responses Sahel Sharifymoghaddam Shivani Upadhyay Nandan Thakur Ronak Pradeep Jimmy Lin RALM 27 0 0 28 Apr 2025
LLM-Evaluation Tropes: Perspectives on the Validity of LLM-Evaluations Laura Dietz Oleg Zendel P. Bailey Charles L. A. Clarke Ellese Cotterill Jeff Dalton Faegheh Hasibi Mark Sanderson Nick Craswell ELM 43 0 0 27 Apr 2025
CURIE: Evaluating LLMs On Multitask Scientific Long Context Understanding and Reasoning Hao Cui Zahra Shamsi Gowoon Cheon Xuejian Ma Shutong Li ... Eun-Ah Kim M. Brenner Viren Jain Sameera Ponda Subhashini Venugopalan ELM LRM 52 0 0 14 Mar 2025
An Analyst-Inspector Framework for Evaluating Reproducibility of LLMs in Data Science Qiuhai Zeng Claire Jin Xinyue Wang Yuhan Zheng Qunhua Li 40 0 0 23 Feb 2025
Retrieval Augmented Visual Question Answering with Outside Knowledge Weizhe Lin Bill Byrne RALM 74 69 0 07 Oct 2022
Visualize Before You Write: Imagination-Guided Open-Ended Text Generation Wanrong Zhu An Yan Yujie Lu Wenda Xu X. Wang Miguel P. Eckstein William Yang Wang 74 37 0 07 Oct 2022
Internet-Augmented Dialogue Generation M. Komeili Kurt Shuster Jason Weston RALM 233 280 0 15 Jul 2021