MARIO: MAth Reasoning with code Interpreter Output -- A Reproducible Pipeline

16 January 2024

Papers citing "MARIO: MAth Reasoning with code Interpreter Output -- A Reproducible Pipeline"

41 / 41 papers shown

Title
Efficient Reasoning for LLMs through Speculative Chain-of-Thought Jikai Wang J. Li Lijun Wu M. Zhang LLMAG LRM 59 1 0 27 Apr 2025
AIMO-2 Winning Solution: Building State-of-the-Art Mathematical Reasoning Models with OpenMathReasoning dataset Ivan Moshkov Darragh Hanley Ivan Sorokin Shubham Toshniwal Christof Henkel Benedikt D. Schifferer Wei Du Igor Gitman ReLM LRM 35 1 0 23 Apr 2025
a1: Steep Test-time Scaling Law via Environment Augmented Generation Lingrui Mei Shenghua Liu Yiwei Wang Baolong Bi Yuyao Ge Jun Wan Yurong Wu Xueqi Cheng LRM 17 0 0 20 Apr 2025
ToolRL: Reward is All Tool Learning Needs Cheng Qian Emre Can Acikgoz Qi He Hongru Wang X. Chen Dilek Hakkani-Tür Gökhan Tür Heng Ji OffRL LRM 19 3 0 16 Apr 2025
Supervised Optimism Correction: Be Confident When LLMs Are Sure J. Zhang Rushuai Yang Shunyu Liu Ting-En Lin Fei Huang Yi Chen Y. Li Dacheng Tao OffRL 20 0 0 10 Apr 2025
ToRL: Scaling Tool-Integrated RL Xuefeng Li Haoyang Zou Pengfei Liu OffRL LRM 31 2 0 30 Mar 2025
Scaling Laws of Synthetic Data for Language Models Zeyu Qin Qingxiu Dong Xingxing Zhang Li Dong Xiaolong Huang ... Hany Awadalla Yi R. Fung Weizhu Chen Minhao Cheng Furu Wei SyDa 71 1 0 25 Mar 2025
MetaLadder: Ascending Mathematical Solution Quality via Analogical-Problem Reasoning Transfer Honglin Lin Zhuoshi Pan Yu-Hu Li Qizhi Pei Xin Gao Mengzhang Cai Conghui He Lijun Wu OffRL LRM 48 0 0 19 Mar 2025
Better Process Supervision with Bi-directional Rewarding Signals Wenxiang Chen Wei He Zhiheng Xi Honglin Guo Boyang Hong ... Nijun Li Tao Gui Yun Li Qi Zhang Xuanjing Huang LRM 42 2 0 06 Mar 2025
DIMSUM: Discourse in Mathematical Reasoning as a Supervision Module Krish Sharma Niyar R. Barman Nicholas M. Asher Akshay Chaturvedi LRM AIMat 59 0 0 06 Mar 2025
Process-based Self-Rewarding Language Models Shimao Zhang Xiao Liu Xin Zhang Junxiao Liu Zheheng Luo Shujian Huang Yeyun Gong ReLM SyDa LRM 84 2 0 05 Mar 2025
Toward Stable and Consistent Evaluation Results: A New Methodology for Base Model Evaluation Hongzhi Luan Changxin Tian Zhaoxin Huan Xiaolu Zhang Kunlong Chen Zhiqiang Zhang Jun Zhou 29 1 0 02 Mar 2025
Code to Think, Think to Code: A Survey on Code-Enhanced Reasoning and Reasoning-Driven Code Intelligence in LLMs Dayu Yang Tianyang Liu Daoan Zhang Antoine Simoulin Xiaoyi Liu ... Zhaopu Teng Xin Qian Grey Yang Jiebo Luo Julian McAuley ReLM OffRL LRM 81 3 0 26 Feb 2025
Towards Better Understanding of Program-of-Thought Reasoning in Cross-Lingual and Multilingual Environments Patomporn Payoungkhamdee Pume Tuchinda Jinheon Baek Samuel Cahyawijaya Can Udomcharoenchaikit Potsawee Manakul Peerat Limkonchotiwat E. Chuangsuwanich Sarana Nutanong LRM 39 0 0 25 Feb 2025
A Survey on Feedback-based Multi-step Reasoning for Large Language Models on Mathematics Ting-Ruen Wei Haowei Liu Xuyang Wu Yi Fang LRM AI4CE ReLM KELM 101 1 0 21 Feb 2025
S $^2$ R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning Ruotian Ma Peisong Wang Cheng Liu Xingyan Liu Jiaqi Chen Bang Zhang Xin Zhou Nan Du Jia Li LRM 54 2 0 18 Feb 2025
ReasonFlux: Hierarchical LLM Reasoning via Scaling Thought Templates L. Yang Zhaochen Yu Bin Cui Mengdi Wang ReLM LRM AI4CE 90 10 0 10 Feb 2025
Learning Autonomous Code Integration for Math Language Models Haozhe Wang Long Li C. Qu Fengming Zhu Weidi Xu Wei Chu Fangzhen Lin 49 1 0 02 Feb 2025
rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking Xinyu Guan L. Zhang Yifei Liu Ning Shang Youran Sun Yi Zhu Fan Yang Mao Yang LRM SyDa ReLM 52 74 0 08 Jan 2025
Search, Verify and Feedback: Towards Next Generation Post-training Paradigm of Foundation Models via Verifier Engineering Xinyan Guan Yanjiang Liu Xinyu Lu Boxi Cao Ben He ... Le Sun Jie Lou Bowen Yu Y. Lu Hongyu Lin ALM 79 2 0 18 Nov 2024
An LLM Agent for Automatic Geospatial Data Analysis Yuxing Chen Weijie Wang Sylvain Lobry Camille Kurtz LLMAG 25 3 0 24 Oct 2024
Markov Chain of Thought for Efficient Mathematical Reasoning Wen Yang Kai Fan Minpeng Liao LRM 37 4 0 23 Oct 2024
GeoCoder: Solving Geometry Problems by Generating Modular Code through Vision-Language Models Aditya Sharma Aman Dalmia Mehran Kazemi Amal Zouaq Christopher J. Pal LRM 11 0 0 17 Oct 2024
MathCoder2: Better Math Reasoning from Continued Pretraining on Model-translated Mathematical Code Zimu Lu Aojun Zhou Ke Wang Houxing Ren Weikang Shi Junting Pan Mingjie Zhan Hongsheng Li LRM 46 7 0 10 Oct 2024
Subtle Errors Matter: Preference Learning via Error-injected Self-editing Kaishuai Xu Tiezheng YU Wenjun Hou Yi Cheng Chak Tou Leong Liangyou Li Xin Jiang Lifeng Shang Qun Liu Wenjie Li LRM 50 0 0 09 Oct 2024
LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning Di Zhang Jianbo Wu Jingdi Lei Tong Che Jiatong Li ... Shufei Zhang Marco Pavone Yuqiang Li Wanli Ouyang Dongzhan Zhou LRM 19 42 0 03 Oct 2024
Qwen2.5-Math Technical Report: Toward Mathematical Expert Model via Self-Improvement An Yang Beichen Zhang Binyuan Hui Bofei Gao Bowen Yu ... Mingfeng Xue Runji Lin Tianyu Liu Xingzhang Ren Zhenru Zhang OSLM LRM 23 170 0 18 Sep 2024
DotaMath: Decomposition of Thought with Code Assistance and Self-correction for Mathematical Reasoning Chengpeng Li Guanting Dong Mingfeng Xue Ru Peng Xiang Wang Dayiheng Liu LRM ReLM 26 11 0 04 Jul 2024
Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs Xin Lai Zhuotao Tian Yukang Chen Senqiao Yang Xiangru Peng Jiaya Jia LRM 41 89 0 26 Jun 2024
DART-Math: Difficulty-Aware Rejection Tuning for Mathematical Problem-Solving Yuxuan Tong Xiwen Zhang Rui Wang R. Wu Junxian He AIMat LRM 30 30 0 18 Jun 2024
Step-level Value Preference Optimization for Mathematical Reasoning Guoxin Chen Minpeng Liao Chengxi Li Kai Fan LRM 24 32 0 16 Jun 2024
JiuZhang3.0: Efficiently Improving Mathematical Reasoning by Training Small Data Synthesis Models Kun Zhou Beichen Zhang Jiapeng Wang Zhipeng Chen Wayne Xin Zhao Jing Sha Zhichao Sheng Shijin Wang Ji-Rong Wen SyDa LRM 30 29 0 23 May 2024
MuMath-Code: Combining Tool-Use Large Language Models with Multi-perspective Data Augmentation for Mathematical Reasoning Shuo Yin Weihao You Zhilong Ji Guoqiang Zhong Jinfeng Bai LRM SyDa 27 1 0 13 May 2024
AlphaMath Almost Zero: process Supervision without process Guoxin Chen Minpeng Liao Chengxi Li Kai Fan AIMat LRM 19 11 0 06 May 2024
MARIO Eval: Evaluate Your Math LLM with your Math LLM--A mathematical dataset evaluation toolkit Boning Zhang Chengxi Li Kai Fan ELM 35 10 0 22 Apr 2024
Masked Thought: Simply Masking Partial Reasoning Steps Can Improve Mathematical Reasoning Learning of Language Models Changyu Chen Xiting Wang Ting-En Lin Ang Lv Yuchuan Wu Xin Gao Ji-Rong Wen Rui Yan Yongbin Li ReLM LRM 21 8 0 04 Mar 2024
OpenMathInstruct-1: A 1.8 Million Math Instruction Tuning Dataset Shubham Toshniwal Ivan Moshkov Sean Narenthiran Daria Gitman Fei Jia Igor Gitman 20 75 0 15 Feb 2024
ReAct: Synergizing Reasoning and Acting in Language Models Shunyu Yao Jeffrey Zhao Dian Yu Nan Du Izhak Shafran Karthik Narasimhan Yuan Cao LLMAG ReLM LRM 208 2,413 0 06 Oct 2022
Large Language Models are Zero-Shot Reasoners Takeshi Kojima S. Gu Machel Reid Yutaka Matsuo Yusuke Iwasawa ReLM LRM 291 2,712 0 24 May 2022
Self-Consistency Improves Chain of Thought Reasoning in Language Models Xuezhi Wang Jason W. Wei Dale Schuurmans Quoc Le Ed H. Chi Sharan Narang Aakanksha Chowdhery Denny Zhou ReLM BDL LRM AI4CE 297 3,163 0 21 Mar 2022
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Jason W. Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Brian Ichter F. Xia Ed H. Chi Quoc Le Denny Zhou LM&Ro LRM AI4CE ReLM 315 8,261 0 28 Jan 2022