Title
Crosslingual Reasoning through Test-Time Scaling Zheng-Xin Yong Muhammad Farid Adilazuarda Jonibek Mansurov Ruochen Zhang Niklas Muennighoff Carsten Eickhoff Genta Indra Winata Julia Kreutzer Stephen H. Bach Alham Fikri Aji LRM ELM 102 0 0 08 May 2025
Two Heads are Better Than One: Test-time Scaling of Multi-agent Collaborative Reasoning Can Jin Hongwu Peng Qixin Zhang Yujin Tang Dimitris N. Metaxas Tong Che LLMAG LRM 96 2 0 14 Apr 2025
A Short Survey on Small Reasoning Models: Training, Inference, Applications and Research Directions Chengyu Wang Taolin Zhang Richang Hong Jun Huang ReLM LRM 37 1 0 12 Apr 2025
Missing Premise exacerbates Overthinking: Are Reasoning Models losing Critical Thinking Skill? Chenrui Fan Ming Li Lichao Sun Tianyi Zhou LRM 51 2 0 09 Apr 2025
MultiClear: Multimodal Soft Exoskeleton Glove for Transparent Object Grasping Assistance Chen Hu Timothy Neate Shan Luo Letizia Gionfrida 39 0 0 04 Apr 2025
Temporal Consistency for LLM Reasoning Process Error Identification Jiacheng Guo Yue Wu Jiahao Qiu Kaixuan Huang Xinzhe Juan L. Yang Mengdi Wang LRM 53 0 0 18 Mar 2025
Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning Bowen Jin Hansi Zeng Zhenrui Yue Dong Wang Sercan Ö. Arik Dong Wang Hamed Zamani J. Han RALM ReLM KELM OffRL AI4TS LRM 80 21 0 12 Mar 2025
GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training Tong Wei Yijun Yang Junliang Xing Yuanchun Shi Zongqing Lu Deheng Ye OffRL LRM 42 1 0 11 Mar 2025
An Empirical Study on Eliciting and Improving R1-like Reasoning Models Z. Chen Yingqian Min Beichen Zhang Jie Chen Jinhao Jiang ... Xu Miao Y. Lu Lei Fang Zhongyuan Wang Ji-Rong Wen ReLM OffRL LRM 81 15 0 06 Mar 2025
SoS1: O1 and R1-Like Reasoning LLMs are Sum-of-Square Solvers Kechen Li Wenqi Zhu Coralia Cartis Tianbo Ji Shiwei Liu ReLM LRM 44 0 0 27 Feb 2025
Big-Math: A Large-Scale, High-Quality Math Dataset for Reinforcement Learning in Language Models Alon Albalak Duy Phung Nathan Lile Rafael Rafailov Kanishk Gandhi ... Anikait Singh Chase Blagden Violet Xiang Dakota Mahan Nick Haber OffRL LRM 45 4 0 24 Feb 2025
Small Models Struggle to Learn from Strong Reasoners Yuetai Li Xiang Yue Zhangchen Xu Fengqing Jiang Luyao Niu Bill Yuchen Lin Bhaskar Ramasubramanian Radha Poovendran LRM 44 12 0 17 Feb 2025
Atom of Thoughts for Markov LLM Test-Time Scaling Fengwei Teng Zhaoyang Yu Quan Shi Jiayi Zhang Chenglin Wu Yuyu Luo MU LRM 49 13 0 17 Feb 2025