v1v2 (latest)

MM-Eval: A Multilingual Meta-Evaluation Benchmark for LLM-as-a-Judge and Reward Models

23 October 2024

ArXiv (abs)PDF HTML HuggingFace (1 upvotes)

Papers citing "MM-Eval: A Multilingual Meta-Evaluation Benchmark for LLM-as-a-Judge and Reward Models"

5 / 5 papers shown

BLEnD: A Benchmark for LLMs on Everyday Knowledge in Diverse Cultures and LanguagesNeural Information Processing Systems (NeurIPS), 2024

...

Mohammad Taher Pilehvar

N. Ousidhoum

Jose Camacho-Collados

Alice Oh

512

119

17 Jan 2025

Better Instruction-Following Through Minimum Bayes RiskInternational Conference on Learning Representations (ICLR), 2024

Graham Neubig

594

03 Oct 2024

Uncertainty-aware Reward Model: Teaching Reward Models to Know What is Unknown

Xingzhou Lou

Dong Yan

Wei Shen

Yuzi Yan

Jian Xie

Junge Zhang

413

01 Oct 2024

The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language ModelsNorth American Chapter of the Association for Computational Linguistics (NAACL), 2024

...

Sean Welleck

Graham Neubig

Moontae Lee

Kyungjae Lee

Minjoon Seo

ELM ALM LM&MA

431

09 Jun 2024

Length-Controlled AlpacaEval: A Simple Way to Debias Automatic Evaluators

458

605

06 Apr 2024