Title
Stability in Single-Peaked Strategic Resource Selection Games Henri Zeiler 21 0 0 09 May 2025
Position: Epistemic Artificial Intelligence is Essential for Machine Learning Models to Know When They Do Not Know Shireen Kudukkil Manchingal Fabio Cuzzolin 42 0 0 08 May 2025
Scalable Chain of Thoughts via Elastic Reasoning Yuhui Xu Hanze Dong Lei Wang Doyen Sahoo Junnan Li Caiming Xiong OffRL LRM 47 0 0 08 May 2025
ZeroSearch: Incentivize the Search Capability of LLMs without Searching Hao-Lun Sun Zile Qiao Jiayan Guo Xuanbo Fan Yingyan Hou Yong-feng Jiang Pengjun Xie Fei Huang Yan Zhang OffRL 51 0 0 07 May 2025
Beyond Theorem Proving: Formulation, Framework and Benchmark for Formal Problem-Solving Qi Liu Xinhao Zheng Renqiu Xia Xingzhi Qi Qinxiang Cao Junchi Yan AIMat 45 0 0 07 May 2025
Optimizing Chain-of-Thought Reasoners via Gradient Variance Minimization in Rejection Sampling and RL Jiarui Yao Yifan Hao Hanning Zhang Hanze Dong Wei Xiong Nan Jiang Tong Zhang LRM 52 0 0 05 May 2025
Turing Machine Evaluation for Large Language Model Haitao Wu Zongbo Han Huaxi Huang Changqing Zhang ELM LRM 62 0 0 29 Apr 2025
Reinforcement Learning for Reasoning in Large Language Models with One Training Example Yiping Wang Qing Yang Zhiyuan Zeng Liliang Ren L. Liu ... Jianfeng Gao Weizhu Chen S. Wang Simon S. Du Yelong Shen OffRL ReLM LRM 110 2 0 29 Apr 2025
SAS-Prompt: Large Language Models as Numerical Optimizers for Robot Self-Improvement H. B. Amor L. Graesser Atil Iscen David B. DÁmbrosio Saminda Abeyruwan Alex Bewley Yifan Zhou Kamalesh Kalirathinam Swaroop Mishra Pannag R. Sanketi LLMAG LM&Ro LRM 102 0 0 29 Apr 2025
Accurate and Diverse LLM Mathematical Reasoning via Automated PRM-Guided GFlowNets Adam Younsi Abdalgader Abubaker M. Seddik Hakim Hacid Salem Lahlou LRM 54 0 0 28 Apr 2025
Random-Set Large Language Models Muhammad Mubashar Shireen Kudukkil Manchingal Fabio Cuzzolin 61 0 0 25 Apr 2025
Evaluating Grounded Reasoning by Code-Assisted Large Language Models for Mathematics Zena Al-Khalili Nick Howell Dietrich Klakow LRM 24 0 0 24 Apr 2025
Neural Theorem Proving: Generating and Structuring Proofs for Formal Verification Balaji Rao William Eiers Carlo Lipizzi 32 0 0 23 Apr 2025
Tina: Tiny Reasoning Models via LoRA Shangshang Wang Julian Asilis Ömer Faruk Akgül Enes Burak Bilgin Ollie Liu W. Neiswanger OffRL LRM 29 1 0 22 Apr 2025
Learning to Reason under Off-Policy Guidance Jianhao Yan Yafu Li Zican Hu Zhi Wang Ganqu Cui Xiaoye Qu Yu Cheng Yue Zhang OffRL LRM 39 0 0 21 Apr 2025
Stop Summation: Min-Form Credit Assignment Is All Process Reward Model Needs for Reasoning Jie Cheng Ruixi Qiao Lijun Li Chao Guo J. Z. Wang Gang Xiong Yisheng Lv Fei-Yue Wang LRM 83 0 0 21 Apr 2025
Synergistic Weak-Strong Collaboration by Aligning Preferences Yizhu Jiao Xuchao Zhang Zhaoyang Wang Yubo Ma Zhun Deng Rujia Wang Chetan Bansal Saravan Rajmohan Jiawei Han Huaxiu Yao 66 0 0 21 Apr 2025
Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? Yang Yue Zhiqi Chen Rui Lu Andrew Zhao Zhaokai Wang Yang Yue Shiji Song Gao Huang ReLM LRM 42 9 0 18 Apr 2025
A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce Wei Xiong Jiarui Yao Yuhui Xu Bo Pang Lei Wang ... Junnan Li Nan Jiang Tong Zhang Caiming Xiong Hanze Dong OffRL LRM 36 2 0 15 Apr 2025
A Short Survey on Small Reasoning Models: Training, Inference, Applications and Research Directions Chengyu Wang Taolin Zhang Richang Hong Jun Huang ReLM LRM 37 1 0 12 Apr 2025
A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility Andreas Hochlehnert Hardik Bhatnagar Vishaal Udandarao Samuel Albanie Ameya Prabhu Matthias Bethge ReLM ALM LRM 77 4 0 09 Apr 2025
Physics-informed KAN PointNet: Deep learning for simultaneous solutions to inverse problems in incompressible flow on numerous irregular geometries Ali Kashefi T. Mukerji 3DPC PINN 47 0 0 08 Apr 2025
FEABench: Evaluating Language Models on Multiphysics Reasoning Ability N. Mudur Hao Cui Subhashini Venugopalan Paul Raccuglia M. Brenner Peter C. Norgaard LLMAG ELM LRM 38 0 0 08 Apr 2025
MultiClear: Multimodal Soft Exoskeleton Glove for Transparent Object Grasping Assistance Chen Hu Timothy Neate Shan Luo Letizia Gionfrida 39 0 0 04 Apr 2025
Do LLM Evaluators Prefer Themselves for a Reason? Wei-Lin Chen Zhepei Wei Xinyu Zhu Shi Feng Yu Meng ELM LRM 42 0 0 04 Apr 2025
MegaMath: Pushing the Limits of Open Math Corpora Fan Zhou Zengzhi Wang Nikhil Ranjan Zhoujun Cheng Liping Tang Guowei He Zhengzhong Liu Eric P. Xing LRM 46 1 0 03 Apr 2025
Adaptive Rectification Sampling for Test-Time Compute Scaling Zhendong Tan Xingjun Zhang Chaoyi Hu Yancheng Pan Shaoxun Wang LRM 31 0 0 02 Apr 2025
LLM-Guided Search for Deletion-Correcting Codes Franziska Weindel Reinhard Heckel LRM 56 0 0 01 Apr 2025
R-PRM: Reasoning-Driven Process Reward Modeling Shuaijie She Junxiao Liu Yifeng Liu Jiajun Chen Xin Huang Shujian Huang LRM 36 2 0 27 Mar 2025
Understanding R1-Zero-Like Training: A Critical Perspective Zichen Liu Changyu Chen Wenjun Li Penghui Qi Tianyu Pang Chao Du Wee Sun Lee Min Lin OffRL LRM 57 36 0 26 Mar 2025
Playing the Fool: Jailbreaking LLMs and Multimodal LLMs with Out-of-Distribution Strategy Joonhyun Jeong Seyun Bae Yeonsung Jung Jaeryong Hwang Eunho Yang AAML 43 0 0 26 Mar 2025
Scaling Laws of Synthetic Data for Language Models Zeyu Qin Qingxiu Dong Xingxing Zhang Li Dong Xiaolong Huang ... Hany Awadalla Yi R. Fung Weizhu Chen Minhao Cheng Furu Wei SyDa 73 1 0 25 Mar 2025
Scaling Evaluation-time Compute with Reasoning Models as Process Evaluators Seungone Kim Ian Wu Jinu Lee Xiang Yue Seongyun Lee ... Kiril Gashteovski Carolin (Haas) Lawrence J. Hockenmaier Graham Neubig Sean Welleck LRM 48 2 0 25 Mar 2025
SimpleRL-Zoo: Investigating and Taming Zero Reinforcement Learning for Open Base Models in the Wild Weihao Zeng Yuzhen Huang Qian Liu Wei Liu Keqing He Zejun Ma Junxian He OffRL ReLM LRM 91 31 0 24 Mar 2025
A Survey on Mathematical Reasoning and Optimization with Large Language Models Ali Forootani OffRL LRM AI4CE 40 0 0 22 Mar 2025
FastCuRL: Curriculum Reinforcement Learning with Progressive Context Extension for Efficient Training R1-like Reasoning Models Mingyang Song Mao Zheng Zheng Li Wenjie Yang Xuan Luo Yue Pan Feng Zhang ReLM LRM 78 4 0 21 Mar 2025
Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesn't Quy-Anh Dang Chris Ngo OffRL LRM 49 8 0 20 Mar 2025
MathFlow: Enhancing the Perceptual Flow of MLLMs for Visual Mathematical Problems Felix Chen Hangjie Yuan Yunqiu Xu Tao Feng Jun Cen Pengwei Liu Zeying Huang Yi Yang LRM 42 1 0 19 Mar 2025
MetaLadder: Ascending Mathematical Solution Quality via Analogical-Problem Reasoning Transfer Honglin Lin Zhuoshi Pan Yu-Hu Li Qizhi Pei Xin Gao Mengzhang Cai Conghui He Lijun Wu OffRL LRM 53 0 0 19 Mar 2025
Tapered Off-Policy REINFORCE: Stable and efficient reinforcement learning for LLMs Nicolas Le Roux Marc G. Bellemare Jonathan Lebensold Arnaud Bergeron Joshua Greaves Alex Fréchette Carolyne Pelletier Eric Thibodeau-Laufer Sándor Toth Sam Work OffRL 89 2 0 18 Mar 2025
Measuring In-Context Computation Complexity via Hidden State Prediction Vincent Herrmann Róbert Csordás Jürgen Schmidhuber 39 0 0 17 Mar 2025
Pensez: Less Data, Better Reasoning -- Rethinking French LLM Huy Hoang Ha ReLM LRM 66 1 0 17 Mar 2025
Can Large Reasoning Models do Analogical Reasoning under Perceptual Uncertainty? Giacomo Camposampiero Michael Hersche Roger Wattenhofer A. Sebastian Abbas Rahimi LRM 48 1 0 14 Mar 2025
From TOWER to SPIRE: Adding the Speech Modality to a Text-Only LLM Kshitij Ambilduke Ben Peters Sonal Sannigrahi Anil Keshwani Tsz Kin Lam Bruno Martins Marcely Zanon Boito André F. T. Martins 47 0 0 13 Mar 2025
Numerical Error Analysis of Large Language Models Stanislav Budzinskiy Wenyi Fang Longbin Zeng Philipp Petersen 37 1 0 13 Mar 2025
DriveLMM-o1: A Step-by-Step Reasoning Dataset and Large Multimodal Model for Driving Scenario Understanding Ayesha Ishaq Jean Lahoud Ketan More Omkar Thawakar Ritesh Thawkar ... F. Khan Hisham Cholakkal Ivan Laptev Rao Muhammad Anwer Salman Khan LRM 59 0 0 13 Mar 2025
ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning Ziyu Wan Yunxiang Li Y. Song Hanjing Wang Linyi Yang Mark W. Schmidt J. Wang Weinan Zhang Shuyue Hu Ying Wen LLMAG KELM LRM AI4CE 84 6 0 12 Mar 2025
MindGYM: Enhancing Vision-Language Models via Synthetic Self-Challenging Questions Zhe Xu Daoyuan Chen Zhenqing Ling Yaliang Li Ying Shen ReLM SyDa LRM 53 0 0 12 Mar 2025
Large Language Model as Meta-Surrogate for Data-Driven Many-Task Optimization: A Proof-of-Principle Study X. Zhang Yue-jiao Gong Jun Zhang 48 0 0 11 Mar 2025
Self-Corrective Task Planning by Inverse Prompting with Large Language Models Jiho Lee Hayun Lee Jonghyeon Kim Kyungjae Lee Eunwoo Kim LRM 62 0 0 10 Mar 2025