Title
Sailing AI by the Stars: A Survey of Learning from Rewards in Post-Training and Test-Time Scaling of Large Language Models Xiaobao Wu LRM 62 0 0 05 May 2025
Optimizing Chain-of-Thought Reasoners via Gradient Variance Minimization in Rejection Sampling and RL Jiarui Yao Yifan Hao Hanning Zhang Hanze Dong Wei Xiong Nan Jiang Tong Zhang LRM 47 0 0 05 May 2025
AdaR1: From Long-CoT to Hybrid-CoT via Bi-Level Adaptive Reasoning Optimization H. Luo Haiying He Y. Wang Jinluan Yang Rui Liu Naiqiang Tan Xiaochun Cao Dacheng Tao Li Shen LRM 26 0 0 30 Apr 2025
Reinforcement Learning for Reasoning in Large Language Models with One Training Example Yiping Wang Qing Yang Zhiyuan Zeng Liliang Ren L. Liu ... Jianfeng Gao Weizhu Chen S. Wang Simon S. Du Yelong Shen OffRL ReLM LRM 108 2 0 29 Apr 2025
Agentic Reasoning and Tool Integration for LLMs via Reinforcement Learning Joykirat Singh Raghav Magazine Yash Pandya A. Nambi LLMAG KELM OffRL LRM 52 0 0 28 Apr 2025
Efficient Reasoning for LLMs through Speculative Chain-of-Thought Jikai Wang J. Li Lijun Wu M. Zhang LLMAG LRM 64 1 0 27 Apr 2025
SPC: Evolving Self-Play Critic via Adversarial Games for LLM Reasoning Jiaqi Chen Bang Zhang Ruotian Ma Peisong Wang Xiaodan Liang Zhaopeng Tu X. Li Kwan-Yee Kenneth Wong LLMAG ReLM LRM 82 0 0 27 Apr 2025
Toward Generalizable Evaluation in the LLM Era: A Survey Beyond Benchmarks Yixin Cao Shibo Hong X. Li Jiahao Ying Yubo Ma ... Juanzi Li Aixin Sun Xuanjing Huang Tat-Seng Chua Yu Jiang ALM ELM 84 0 0 26 Apr 2025
PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts Y. Wang Pei Zhang Jialong Tang H. Wei Baosong Yang ... Y. Zhang Fei Huang Junyang Lin Fei Huang Jingren Zhou LRM 50 0 0 25 Apr 2025
Skywork R1V2: Multimodal Hybrid Reinforcement Learning for Reasoning Chris Yichen Wei Yi Peng X. Wang Weijie Qiu ... Jianhao Zhang Y. Hao Xuchen Song Yang Liu Yahui Zhou OffRL AI4TS SyDa LRM VLM 67 0 0 23 Apr 2025
Synergizing RAG and Reasoning: A Systematic Review Yunfan Gao Yun Xiong Yijie Zhong Yuxi Bi Ming Xue H. Wang LRM AI4CE 31 0 0 22 Apr 2025
Virology Capabilities Test (VCT): A Multimodal Virology Q&A Benchmark Jasper Götting Pedro Medeiros Jon G Sanders Nathaniel Li Long Phan Karam Elabd Lennart Justen Dan Hendrycks Seth Donoughe ELM 49 2 0 21 Apr 2025
Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? Yang Yue Zhiqi Chen Rui Lu Andrew Zhao Zhaokai Wang Yang Yue Shiji Song Gao Huang ReLM LRM 42 5 0 18 Apr 2025
OmniCaptioner: One Captioner to Rule Them All Yiting Lu Jiakang Yuan Zhen Li Shitian Zhao Qi Qin ... Lei Bai Zhibo Chen Peng Gao Bo Zhang Peng Gao MLLM 79 0 0 09 Apr 2025
Retro-Search: Exploring Untaken Paths for Deeper and Efficient Reasoning Ximing Lu Seungju Han David Acuna Hyunwoo Kim Jaehun Jung ... Niklas Muennighoff M. Patwary M. Shoeybi Bryan Catanzaro Yejin Choi ReLM LRM 42 2 0 06 Apr 2025
SimpleRL-Zoo: Investigating and Taming Zero Reinforcement Learning for Open Base Models in the Wild Weihao Zeng Yuzhen Huang Qian Liu Wei Liu Keqing He Zejun Ma Junxian He OffRL ReLM LRM 91 28 0 24 Mar 2025
FastCuRL: Curriculum Reinforcement Learning with Progressive Context Extension for Efficient Training R1-like Reasoning Models Mingyang Song Mao Zheng Zheng Li Wenjie Yang Xuan Luo Yue Pan Feng Zhang ReLM LRM 75 4 0 21 Mar 2025
Enhancing LLM Reasoning with Iterative DPO: A Comprehensive Empirical Investigation Songjun Tu Jiahao Lin Xiangyu Tian Qichao Zhang Linjing Li ... Nan Xu Wei He Xiangyuan Lan D. Jiang Dongbin Zhao LRM 44 2 0 17 Mar 2025
Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey Y. Wang Shengqiong Wu Y. Zhang William Yang Wang Ziwei Liu Jiebo Luo Hao Fei LRM 82 7 0 16 Mar 2025
Can Large Language Models Detect Errors in Long Chain-of-Thought Reasoning? Yancheng He Shilong Li J. Liu Weixun Wang Xingyuan Bu ... Zhongyuan Peng Z. Zhang Zhicheng Zheng Wenbo Su Bo Zheng ELM LRM 74 6 0 26 Feb 2025
Teaching LLMs According to Their Aptitude: Adaptive Reasoning for Mathematical Problem Solving Xin Xu Yan Xu Tianhao Chen Yuchen Yan Chengwu Liu ... Y. Wang Yichun Yin Y. Wang Lifeng Shang Q. Liu LRM 63 2 0 17 Feb 2025
Unbiased Evaluation of Large Language Models from a Causal Perspective Meilin Chen Jian Tian Liang Ma Di Xie Weijie Chen Jiang Zhu ALM ELM 52 0 0 10 Feb 2025
ReasonFlux: Hierarchical LLM Reasoning via Scaling Thought Templates L. Yang Zhaochen Yu Bin Cui Mengdi Wang ReLM LRM AI4CE 94 10 0 10 Feb 2025
UGPhysics: A Comprehensive Benchmark for Undergraduate Physics Reasoning with Large Language Models Xin Xu Qiyun Xu Tong Xiao Tianhao Chen Yuchen Yan Jiaxin Zhang Shizhe Diao Can Yang Yang Wang ELM LRM AI4CE 90 2 0 01 Feb 2025
BoostStep: Boosting mathematical capability of Large Language Models via improved single-step reasoning Beichen Zhang Yuhong Liu Xiaoyi Dong Yuhang Zang Pan Zhang Haodong Duan Yuhang Cao D. Lin J. T. Wang LRM ReLM 53 2 0 06 Jan 2025
PRMBench: A Fine-grained and Challenging Benchmark for Process-Level Reward Models Mingyang Song Zhaochen Su Xiaoye Qu Jiawei Zhou Yu-Xi Cheng LRM 45 29 0 06 Jan 2025
Understand, Solve and Translate: Bridging the Multilingual Mathematical Reasoning Gap Hyunwoo Ko Guijin Son Dasol Choi RALM LRM 70 7 0 05 Jan 2025
UTMath: Math Evaluation with Unit Test via Reasoning-to-Coding Thoughts Bo Yang Qingping Yang Runtao Liu Runtao Liu LRM ReLM ELM AIMat 62 1 0 11 Nov 2024
Number Cookbook: Number Understanding of Language Models and How to Improve It Haotong Yang Yi Hu Shijia Kang Zhouchen Lin Muhan Zhang LRM 41 2 0 06 Nov 2024
CoMAT: Chain of Mathematically Annotated Thought Improves Mathematical Reasoning Joshua Ong Jun Leang Aryo Pradipta Gema Shay B. Cohen ReLM LRM ReCod 31 2 0 14 Oct 2024
LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models Kaichen Zhang Bo Li Peiyuan Zhang Fanyi Pu Joshua Adrian Cahyono ... Shuai Liu Yuanhan Zhang Jingkang Yang Chunyuan Li Ziwei Liu 85 73 0 17 Jul 2024
NTSEBENCH: Cognitive Reasoning Benchmark for Vision Language Models Pranshu Pandya Agney S Talwarr Vatsal Gupta Tushar Kataria Dan Roth Vivek Gupta LRM 52 2 0 15 Jul 2024
CMMaTH: A Chinese Multi-modal Math Skill Evaluation Benchmark for Foundation Models Zhong-Zhi Li Ming-Liang Zhang Fei Yin Zhi-Long Ji Jin-Feng Bai Zhen-Ru Pan Fan-Hu Zeng Jian Xu Jia-Xin Zhang Cheng-Lin Liu ELM 23 10 0 28 Jun 2024
OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI Zhen Huang Zengzhi Wang Shijie Xia Xuefeng Li Haoyang Zou ... Yuxiang Zheng Shaoting Zhang Dahua Lin Yu Qiao Pengfei Liu ELM LRM 43 25 0 18 Jun 2024
AI for Mathematics: A Cognitive Science Perspective Cedegao E. Zhang Katherine M. Collins Adrian Weller Joshua B. Tenenbaum 34 9 0 19 Oct 2023
Sparks of Artificial General Intelligence: Early experiments with GPT-4 Sébastien Bubeck Varun Chandrasekaran Ronen Eldan J. Gehrke Eric Horvitz ... Scott M. Lundberg Harsha Nori Hamid Palangi Marco Tulio Ribeiro Yi Zhang ELM AI4MH AI4CE ALM 206 2,232 0 22 Mar 2023
Draft, Sketch, and Prove: Guiding Formal Theorem Provers with Informal Proofs Albert Q. Jiang Sean Welleck Jin Peng Zhou Wenda Li Jiacheng Liu M. Jamnik Timothée Lacroix Yuhuai Wu Guillaume Lample AIMat 58 154 0 21 Oct 2022
Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering Pan Lu Swaroop Mishra Tony Xia Liang Qiu Kai-Wei Chang Song-Chun Zhu Oyvind Tafjord Peter Clark A. Kalyan ELM ReLM LRM 207 1,089 0 20 Sep 2022
Scaling Laws for Neural Language Models Jared Kaplan Sam McCandlish T. Henighan Tom B. Brown B. Chess R. Child Scott Gray Alec Radford Jeff Wu Dario Amodei 223 4,424 0 23 Jan 2020