Communities
Connect sessions
AI calendar
Organizations
Join Slack
Contact Sales

Terms and Conditions

Twitter GitHub LinkedIn Bluesky Youtube

© 2025 ResearchTrend.AI, All rights reserved.

Home
Papers
2511.04703
Cited By

Measuring what Matters: Construct Validity in Large Language Model Benchmarks

Measuring what Matters: Construct Validity in Large Language Model Benchmarks

3 November 2025

Angelika Romanou

Franziska Sofia Hafner

Karolina Korgul

María Grandury

Valentin Hofmann

Hannah Rose Kirk

Gabrielle Kaili-May Liu

Lennart Luettgau

Jonathan Rystrøm

Antoine Bosselut

Jakob N. Foerster

Inioluwa Deborah Raji

Christopher Summerfield

ArXiv (abs)PDF HTML HuggingFace (4 upvotes)

Papers citing "Measuring what Matters: Construct Validity in Large Language Model Benchmarks"

0 / 0 papers shown

Title
No papers found