MathBench: Evaluating the Theory and Application Proficiency of LLMs
with a Hierarchical Mathematics Benchmark

MathBench: Evaluating the Theory and Application Proficiency of LLMs with a Hierarchical Mathematics Benchmark

20 May 2024

Yuxuan Qiao

Dahua Lin

Papers citing "MathBench: Evaluating the Theory and Application Proficiency of LLMs with a Hierarchical Mathematics Benchmark"

10 / 10 papers shown

Title
CipherBank: Exploring the Boundary of LLM Reasoning Capabilities through Cryptography Challenges Y. Li Qizhi Pei Mengyuan Sun Honglin Lin Chenlin Ming Xin Gao Jiang Wu C. He Lijun Wu ELM LRM 37 0 0 27 Apr 2025
Benchmarking Multimodal Mathematical Reasoning with Explicit Visual Dependency Zhikai Wang Jiashuo Sun W. Zhang Zhiqiang Hu Xin Li F. Wang Deli Zhao VLM LRM 70 0 0 24 Apr 2025
UrbanPlanBench: A Comprehensive Urban Planning Benchmark for Evaluating Large Language Models Yu Zheng Longyi Liu Yuming Lin Jie Feng Guozhen Zhang Depeng Jin Yong Li ELM 71 0 0 23 Apr 2025
Do We Truly Need So Many Samples? Multi-LLM Repeated Sampling Efficiently Scales Test-Time Compute Jianhao Chen Zishuo Xun Bocheng Zhou Han Qi Qiaosheng Zhang ... Wei Hu Yuzhong Qu W. Ouyang Wanli Ouyang Shuyue Hu 74 0 0 01 Apr 2025
UGPhysics: A Comprehensive Benchmark for Undergraduate Physics Reasoning with Large Language Models Xin Xu Qiyun Xu Tong Xiao Tianhao Chen Yuchen Yan Jiaxin Zhang Shizhe Diao Can Yang Yang Wang ELM LRM AI4CE 68 2 0 01 Feb 2025
BoostStep: Boosting mathematical capability of Large Language Models via improved single-step reasoning Beichen Zhang Yuhong Liu Xiaoyi Dong Yuhang Zang Pan Zhang Haodong Duan Yuhang Cao D. Lin J. T. Wang LRM ReLM 43 2 0 06 Jan 2025
RAG-DDR: Optimizing Retrieval-Augmented Generation Using Differentiable Data Rewards Xinze Li Sen Mei Zhenghao Liu Yukun Yan Shuo Wang ... H. Chen Ge Yu Zhiyuan Liu Maosong Sun Chenyan Xiong 30 6 0 17 Oct 2024
Learning Algorithms Made Simple Noorbakhsh Amiri Golilarz Elias Hossain Abdoljalil Addeh Keyan Alexander Rahimi AAML 39 0 0 11 Oct 2024
ReAct: Synergizing Reasoning and Acting in Language Models Shunyu Yao Jeffrey Zhao Dian Yu Nan Du Izhak Shafran Karthik Narasimhan Yuan Cao LLMAG ReLM LRM 208 2,413 0 06 Oct 2022
Scaling Laws for Neural Language Models Jared Kaplan Sam McCandlish T. Henighan Tom B. Brown B. Chess R. Child Scott Gray Alec Radford Jeff Wu Dario Amodei 220 3,054 0 23 Jan 2020