Beyond Outcomes: Transparent Assessment of LLM Reasoning in Games

18 December 2024

Papers citing "Beyond Outcomes: Transparent Assessment of LLM Reasoning in Games"

1 / 1 papers shown

Title
MastermindEval: A Simple But Scalable Reasoning Benchmark Jonas Golde Patrick Haller Fabio Barth Alan Akbik LRM ReLM ELM 51 2 0 07 Mar 2025