Beyond Metrics: A Critical Analysis of the Variability in Large Language Model Evaluation Frameworks

29 July 2024

Marco AF Pimentel

Clément Christophe

Tathagata Raha

Praveen K Kanithi

Shadab Khan

Papers citing "Beyond Metrics: A Critical Analysis of the Variability in Large Language Model Evaluation Frameworks"

1 / 1 papers shown

Title
GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding Alex Jinpeng Wang Amanpreet Singh Julian Michael Felix Hill Omer Levy Samuel R. Bowman ELM 294 6,927 0 20 Apr 2018