MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation

MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation

28 December 2023

Papers citing "MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation"

19 / 19 papers shown

Title
Sailing AI by the Stars: A Survey of Learning from Rewards in Post-Training and Test-Time Scaling of Large Language Models Xiaobao Wu LRM 60 0 0 05 May 2025
DeepCritic: Deliberate Critique with Large Language Models Wenkai Yang Jingwen Chen Yankai Lin Ji-Rong Wen ALM LRM 23 0 0 01 May 2025
DeduCE: Deductive Consistency as a Framework to Evaluate LLM Reasoning Atharva Pandey Kshitij Dubey Rahul Sharma Amit Sharma ReLM ELM LRM 47 0 0 09 Apr 2025
Do PhD-level LLMs Truly Grasp Elementary Addition? Probing Rule Learning vs. Memorization in Large Language Models Yang Yan Yu Lu Renjun Xu Zhenzhong Lan LRM 28 1 0 07 Apr 2025
VERIFY: A Benchmark of Visual Explanation and Reasoning for Investigating Multimodal Reasoning Fidelity Jing Bi Junjia Guo Susan Liang Guangyu Sun Luchuan Song ... Jinxi He Jiarui Wu A. Vosoughi C. L. P. Chen Chenliang Xu LRM 62 1 0 14 Mar 2025
VLRMBench: A Comprehensive and Challenging Benchmark for Vision-Language Reward Models Jiacheng Ruan Wenzhen Yuan Xian Gao Ye Guo Daoxin Zhang Zhe Xu Yao Hu Ting Liu Yuzhuo Fu LRM VLM 51 4 0 10 Mar 2025
ProJudge: A Multi-Modal Multi-Discipline Benchmark and Instruction-Tuning Dataset for MLLM-based Process Judges Jiaxin Ai Pengfei Zhou Zhaopan Xu Ming Li Fanrui Zhang ... Jianwen Sun Yukang Feng Baojin Huang Zhongyuan Wang K. Zhang ELM 51 0 0 09 Mar 2025
Instruct-of-Reflection: Enhancing Large Language Models Iterative Reflection Capabilities via Dynamic-Meta Instruction Liping Liu Chunhong Zhang Likang Wu Chuang Zhao Zheng Hu Ming He Jianping Fan LLMAG LRM 31 0 0 02 Mar 2025
Towards Reasoning Ability of Small Language Models Gaurav Srivastava Shuxiang Cao Xuan Wang ReLM LRM 49 4 0 17 Feb 2025
PRMBench: A Fine-grained and Challenging Benchmark for Process-Level Reward Models Mingyang Song Zhaochen Su Xiaoye Qu Jiawei Zhou Yu-Xi Cheng LRM 38 29 0 06 Jan 2025
On Memorization of Large Language Models in Logical Reasoning Chulin Xie Yangsibo Huang Chiyuan Zhang Da Yu Xinyun Chen Bill Yuchen Lin Bo Li Badih Ghazi Ravi Kumar LRM 41 20 0 30 Oct 2024
O1 Replication Journey: A Strategic Progress Report -- Part 1 Yiwei Qin Xuefeng Li Haoyang Zou Yixiu Liu Shijie Xia ... Yixin Ye Weizhe Yuan Hector Liu Y. Li Pengfei Liu VLM 35 67 0 08 Oct 2024
Critic-CoT: Boosting the reasoning abilities of large language model via Chain-of-thoughts Critic Xin Zheng Jie Lou Boxi Cao Xueru Wen Yuqiu Ji Hongyu Lin Y. Lu Xianpei Han Debing Zhang Le Sun LLMAG OffRL LRM ReLM KELM 20 8 1 29 Aug 2024
Evaluating Mathematical Reasoning Beyond Accuracy Shijie Xia Xuefeng Li Yixin Liu Tongshuang Wu Pengfei Liu LRM ReLM 42 21 0 08 Apr 2024
Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions Pengfei Hong Navonil Majumder Deepanway Ghosal Somak Aditya Rada Mihalcea Soujanya Poria LRM 26 3 0 17 Jan 2024
AlignBench: Benchmarking Chinese Alignment of Large Language Models Xiao Liu Xuanyu Lei Sheng-Ping Wang Yue Huang Zhuoer Feng ... Hongning Wang Jing Zhang Minlie Huang Yuxiao Dong Jie Tang ELM LM&MA ALM 111 41 0 30 Nov 2023
Three Questions Concerning the Use of Large Language Models to Facilitate Mathematics Learning An-Zi Yen Wei-Ling Hsu LRM AI4Ed 23 9 0 20 Oct 2023
Sparks of Artificial General Intelligence: Early experiments with GPT-4 Sébastien Bubeck Varun Chandrasekaran Ronen Eldan J. Gehrke Eric Horvitz ... Scott M. Lundberg Harsha Nori Hamid Palangi Marco Tulio Ribeiro Yi Zhang ELM AI4MH AI4CE ALM 197 2,953 0 22 Mar 2023
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Jason W. Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Brian Ichter F. Xia Ed H. Chi Quoc Le Denny Zhou LM&Ro LRM AI4CE ReLM 315 8,261 0 28 Jan 2022