Title
RoboOS: A Hierarchical Embodied Framework for Cross-Embodiment and Multi-Agent Collaboration Huajie Tan Xiaoshuai Hao Minglan Lin Pengwei Wang Yaoxu Lyu Mingyu Cao Zhongyuan Wang S. Zhang LM&Ro 36 0 0 06 May 2025
Optimizing Chain-of-Thought Reasoners via Gradient Variance Minimization in Rejection Sampling and RL Jiarui Yao Yifan Hao Hanning Zhang Hanze Dong Wei Xiong Nan Jiang Tong Zhang LRM 47 0 0 05 May 2025
FormalMATH: Benchmarking Formal Mathematical Reasoning of Large Language Models Zhouliang Yu Ruotian Peng Keyi Ding Y. K. Li Zhongyuan Peng ... Huajian Xin W. R. Huang Yandong Wen Ge Zhang Weiyang Liu LRM 30 0 0 05 May 2025
Reinforced MLLM: A Survey on RL-Based Reasoning in Multimodal Large Language Models Guanghao Zhou Panjia Qiu C. L. P. Chen J. Wang Zheming Yang Jian Xu Minghui Qiu OffRL LRM 53 0 0 30 Apr 2025
Between Underthinking and Overthinking: An Empirical Study of Reasoning Length and correctness in LLMs Jinyan Su Jennifer Healey Preslav Nakov Claire Cardie LRM 49 0 0 30 Apr 2025
Phi-4-reasoning Technical Report Marah Abdin Sahaj Agarwal Ahmed Hassan Awadallah Vidhisha Balachandran Harkirat Singh Behl ... Vaishnavi Shrivastava Vibhav Vineet Yue Wu Safoora Yousefi Guoqing Zheng ReLM LRM 77 0 0 30 Apr 2025
Reinforcement Learning for Reasoning in Large Language Models with One Training Example Yiping Wang Qing Yang Zhiyuan Zeng Liliang Ren L. Liu ... Jianfeng Gao Weizhu Chen S. Wang Simon S. Du Yelong Shen OffRL ReLM LRM 108 2 0 29 Apr 2025
OpenTCM: A GraphRAG-Empowered LLM-based System for Traditional Chinese Medicine Knowledge Retrieval and Diagnosis Jinglin He Yunqi Guo Lai Kwan Lam Waikei Leung Lixing He Yuanan Jiang Chi Chiu Wang Guoliang Xing Hongkai Chen 27 0 0 28 Apr 2025
Kimi-Audio Technical Report KimiTeam Ding Ding Zeqian Ju Yichong Leng S. Liu ... Z. Yang Aoxiong Yin Ruibin Yuan Y. Zhang Zaida Zhou AuLLM VLM 105 1 0 25 Apr 2025
Fast-Slow Thinking for Large Vision-Language Model Reasoning W. L. Xiao Leilei Gan Weilong Dai Wanggui He Ziwei Huang ... Fangxun Shu Zhelun Yu Peng Zhang Hao Jiang Fei Wu ReLM LRM AI4CE 60 0 0 25 Apr 2025
Even Small Reasoners Should Quote Their Sources: Introducing the Pleias-RAG Model Family Pierre-Carl Langlais Pavel Chizhov Mattia Nee Carlos Rosas Hinostroza Matthieu Delsart Irène Girard Othman Hicheur Anastasia Stasenko Ivan P. Yamshchikov LRM 47 0 0 25 Apr 2025
Skywork R1V2: Multimodal Hybrid Reinforcement Learning for Reasoning Chris Yichen Wei Yi Peng X. Wang Weijie Qiu ... Jianhao Zhang Y. Hao Xuchen Song Yang Liu Yahui Zhou OffRL AI4TS SyDa LRM VLM 67 0 0 23 Apr 2025
Sparks of Tabular Reasoning via Text2SQL Reinforcement Learning Josefa Lia Stoisser Marc Boubnovski Martell Julien Fauqueur LMTD ReLM AI4TS LRM 76 0 0 23 Apr 2025
Dynamic Early Exit in Reasoning Models Chenxu Yang Qingyi Si Yongjie Duan Zheliang Zhu Chenyu Zhu Zheng-Shen Lin Li Cao Weiping Wang ReLM LRM 26 0 0 22 Apr 2025
StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation Yinmin Zhong Zili Zhang Xiaoniu Song Hanpeng Hu Chao Jin ... Changyi Wan Hongyu Zhou Yimin Jiang Yibo Zhu Daxin Jiang OffRL AI4TS 49 0 0 22 Apr 2025
SARI: Structured Audio Reasoning via Curriculum-Guided Reinforcement Learning Cheng Wen Tingwei Guo Shuaijiang Zhao Wei Zou Xiangang Li OffRL AuLLM LRM 45 1 0 22 Apr 2025
Stop Summation: Min-Form Credit Assignment Is All Process Reward Model Needs for Reasoning Jie Cheng Ruixi Qiao Lijun Li Chao Guo J. Z. Wang Gang Xiong Yisheng Lv Fei-Yue Wang LRM 39 0 0 21 Apr 2025
FlowReasoner: Reinforcing Query-Level Meta-Agents Hongcheng Gao Yue Liu Yufei He Longxu Dou C. Du Zhijie Deng Bryan Hooi Min Lin Tianyu Pang AIFin LRM 24 1 0 21 Apr 2025
Learning to Reason under Off-Policy Guidance Jianhao Yan Yafu Li Zican Hu Zhi Wang Ganqu Cui Xiaoye Qu Yu Cheng Yue Zhang OffRL LRM 34 0 0 21 Apr 2025
VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models Weiye Xu J. Wang Weiyun Wang Zhe Chen Wengang Zhou ... Xiaohua Wang Xizhou Zhu Wenhai Wang Jifeng Dai Jinguo Zhu VLM LRM 46 0 0 21 Apr 2025
Think2SQL: Reinforce LLM Reasoning Capabilities for Text2SQL Simone Papicchio Simone Rossi Luca Cagliero Paolo Papotti ReLM LMTD AI4TS LRM 51 0 0 21 Apr 2025
SRPO: A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM X. Zhang J. Wang Zifei Cheng Wenhao Zhuang Zheng Lin ... Shouyu Yin Chaohang Wen Haotian Zhang Bin Chen Bing Yu LRM 28 2 0 19 Apr 2025
Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? Yang Yue Zhiqi Chen Rui Lu Andrew Zhao Zhaokai Wang Yang Yue Shiji Song Gao Huang ReLM LRM 40 5 0 18 Apr 2025
Thought Manipulation: External Thought Can Be Efficient for Large Reasoning Models Yule Liu Jingyi Zheng Zhen Sun Zifan Peng Wenhan Dong Zeyang Sha Shiwen Cui Weiqiang Wang Xinlei He OffRL LRM 32 3 0 18 Apr 2025
ImPart: Importance-Aware Delta-Sparsification for Improved Model Compression and Merging in LLMs Yan Yang Yixia Li Hongru Wang Xuetao Wei Jianqiao Yu Yun-Nung Chen Guanhua Chen MoMe 24 0 0 17 Apr 2025
Open-Medical-R1: How to Choose Data for RLVR Training at Medicine Domain Zhongxi Qiu Zhang Zhang Yan Hu Heng Li Jiang-Dong Liu OffRL 34 0 0 16 Apr 2025
d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning Siyan Zhao Devaansh Gupta Qinqing Zheng Aditya Grover DiffM LRM AI4CE 37 0 0 16 Apr 2025
Efficient Reasoning Models: A Survey Sicheng Feng Gongfan Fang Xinyin Ma Xinchao Wang ReLM LRM 50 0 0 15 Apr 2025
Kimina-Prover Preview: Towards Large Formal Reasoning Models with Reinforcement Learning Haiming Wang Mert Unsal Xiaohan Lin Mantas Baksys J. Liu ... Zhouliang Yu Z. Wang Zhilin Yang Zhengying Liu Jia-Nan Li AIMat ReLM AI4TS LRM 49 4 0 15 Apr 2025
Heimdall: test-time scaling on the generative verification Wenlei Shi Xing Jin LRM 18 0 0 14 Apr 2025
TinyLLaVA-Video-R1: Towards Smaller LMMs for Video Reasoning Xingjian Zhang Siwei Wen Wenjun Wu Lei Huang LRM 21 1 0 13 Apr 2025
DUMP: Automated Distribution-Level Curriculum Learning for RL-based LLM Post-training Zhenting Wang Guofeng Cui Kun Wan Wentian Zhao 23 0 0 13 Apr 2025
Speculative Thinking: Enhancing Small-Model Reasoning with Large Model Guidance at Inference Time Wang Yang Xiang Yue V. Chaudhary Xiaotian Han ReLM LRM 53 1 0 12 Apr 2025
Perception-R1: Pioneering Perception Policy with Reinforcement Learning En Yu Kangheng Lin Liang Zhao Jisheng Yin Yana Wei ... Zheng Ge Xiangyu Zhang Daxin Jiang Jingyu Wang Wenbing Tao VLM OffRL LRM 32 0 0 10 Apr 2025
Kimi-VL Technical Report Kimi Team Angang Du B. Yin Bowei Xing Bowen Qu ... Zhiqi Huang Zihao Huang Zijia Zhao Z. Chen Zongyu Lin MLLM VLM MoE 90 0 0 10 Apr 2025
VL-Rethinker: Incentivizing Self-Reflection of Vision-Language Models with Reinforcement Learning Haozhe Wang C. Qu Zuming Huang Wei Chu Fangzhen Lin Wenhu Chen OffRL ReLM SyDa LRM VLM 66 1 0 10 Apr 2025
Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining Rosie Zhao Alexandru Meterez Sham Kakade C. Pehlevan Samy Jelassi Eran Malach ReLM LRM 33 2 0 10 Apr 2025
VideoChat-R1: Enhancing Spatio-Temporal Perception via Reinforcement Fine-Tuning Xinhao Li Ziang Yan Desen Meng Lu Dong Xiangyu Zeng Yinan He Y. Wang Yu Qiao Yi Wang Limin Wang VLM AI4TS LRM 34 2 0 09 Apr 2025
A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility Andreas Hochlehnert Hardik Bhatnagar Vishaal Udandarao Samuel Albanie Ameya Prabhu Matthias Bethge ReLM ALM LRM 58 4 0 09 Apr 2025
On the Suitability of Reinforcement Fine-Tuning to Visual Tasks X. Chen Wei Li Chunxu Liu Chi Xie Xiaoyan Hu Chengqian Ma Feng Zhu Rui Zhao ReLM LRM 54 0 0 08 Apr 2025
Concise Reasoning via Reinforcement Learning Mehdi Fatemi Banafsheh Rafiee Mingjie Tang Kartik Talamadupula ReLM OffRL LRM 40 3 0 07 Apr 2025
Quantization Hurts Reasoning? An Empirical Study on Quantized Reasoning Models Ruikang Liu Yuxuan Sun Manyi Zhang Haoli Bai Xianzhi Yu Tiezheng Yu C. Yuan Lu Hou MQ LRM 23 5 0 07 Apr 2025
VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks Yu Yue Yufeng Yuan Qiying Yu Xiaochen Zuo Ruofei Zhu ... Ru Zhang Xin Liu Mingxuan Wang Yonghui Wu Lin Yan OffRL LRM 19 5 0 07 Apr 2025
Trust Region Preference Approximation: A simple and stable reinforcement learning algorithm for LLM reasoning Xuerui Su Shufang Xie Guoqing Liu Yingce Xia Renqian Luo Peiran Jin Zhiming Ma Yue Wang Zun Wang Yuting Liu LRM 19 1 0 06 Apr 2025
Learning Lie Group Generators from Trajectories Lifan Hu 29 0 0 04 Apr 2025
AnesBench: Multi-Dimensional Evaluation of LLM Reasoning in Anesthesiology Xiang Feng Wentao Jiang Zengmao Wang Yong Luo Pingbo Xu Baosheng Yu Hua Jin Bo Du Jing Zhang ELM LRM 38 0 0 03 Apr 2025
ThinkPrune: Pruning Long Chain-of-Thought of LLMs via Reinforcement Learning Bairu Hou Yang Zhang Jiabao Ji Yujian Liu Kaizhi Qian Jacob Andreas Shiyu Chang OffRL LRM 53 3 0 02 Apr 2025
OpenCodeReasoning: Advancing Data Distillation for Competitive Coding Wasi Uddin Ahmad Sean Narenthiran Somshubra Majumdar Aleksander Ficek Siddhartha Jain Jocelyn Huang Vahid Noroozi Boris Ginsburg LRM 50 2 0 02 Apr 2025
Z1: Efficient Test-time Scaling with Code Zhaojian Yu Yinghao Wu Yilun Zhao Arman Cohan Xiao-Ping Zhang LRM 28 1 0 01 Apr 2025
MedReason: Eliciting Factual Medical Reasoning Steps in LLMs via Knowledge Graphs Juncheng Wu Wenlong Deng X. Li Sheng Liu Taomian Mi ... Yihan Cao Hui Ren X. Li Xiaoxiao Li Yuyin Zhou AI4MH LRM 57 1 0 01 Apr 2025