DOVE: A Large-Scale Multi-Dimensional Predictions Dataset Towards Meaningful LLM Evaluation

3 March 2025

Papers citing "DOVE: A Large-Scale Multi-Dimensional Predictions Dataset Towards Meaningful LLM Evaluation"

1 / 1 papers shown

Title
What the HellaSwag? On the Validity of Common-Sense Reasoning Benchmarks Pavel Chizhov Mattia Nee Pierre-Carl Langlais Ivan P. Yamshchikov ReLM ELM LRM 33 1 0 10 Apr 2025