BetterBench: Assessing AI Benchmarks, Uncovering Issues, and Establishing Best Practices

20 November 2024

Papers citing "BetterBench: Assessing AI Benchmarks, Uncovering Issues, and Establishing Best Practices"

4 / 4 papers shown

Title
The Convergent Ethics of AI? Analyzing Moral Foundation Priorities in Large Language Models with a Multi-Framework Approach Chad Coleman W. Russell Neuman Ali Dasdan Safinah Ali Manan Shah ELM LRM 38 0 0 27 Apr 2025
Mapping AI Benchmark Data to Quantitative Risk Estimates Through Expert Elicitation Malcolm Murray Henry Papadatos Otter Quarks Pierre-François Gimenez Simeon Campos 54 1 0 06 Mar 2025
Can We Trust AI Benchmarks? An Interdisciplinary Review of Current Issues in AI Evaluation Maria Eriksson Erasmo Purificato Arman Noroozian Joao Vinagre Guillaume Chaslot Emilia Gomez David Fernandez Llorca ELM 128 1 0 10 Feb 2025
SafetyPrompts: a Systematic Review of Open Datasets for Evaluating and Improving Large Language Model Safety Paul Röttger Fabio Pernisi Bertie Vidgen Dirk Hovy ELM KELM 58 30 0 08 Apr 2024