Papers citing "BIG-Bench Extra Hard"

3 / 3 papers shown

Title
DMind Benchmark: The First Comprehensive Benchmark for LLM Evaluation in the Web3 Domain Miracle Master Rainy Sun Anya Reese Joey Ouyang Alex Chen ... James Yi Garry Zhao Tony Ling Hobert Wong Lowes Yang ALM ELM 64 0 0 18 Apr 2025
Recitation over Reasoning: How Cutting-Edge Language Models Can Fail on Elementary School-Level Reasoning Problems? Kai Yan Yufei Xu Zhengyin Du Xuesong Yao Z. Wang Xiaowen Guo Jiecao Chen ReLM ELM LRM 87 3 0 01 Apr 2025
Gemma 3 Technical Report Gemma Team Aishwarya B Kamath Johan Ferret Shreya Pathak Nino Vieillard ... Harshal Tushar Lehri Hussein Hazimeh Ian Ballantyne Idan Szpektor Ivan Nardini VLM 69 24 0 25 Mar 2025