Title
SpatialLadder: Progressive Training for Spatial Reasoning in Vision-Language Models Hongxing Li Dingming Li Zixuan Wang Yuchen Yan Hang Wu Wenqi Zhang Yongliang Shen Weiming Lu Jun Xiao Yueting Zhuang LRM VLM 8 0 0 09 Oct 2025
VOGUE: Guiding Exploration with Visual Uncertainty Improves Multimodal Reasoning Rui Liu Dian Yu Tong Zheng Runpeng Dai Zongxia Li ... Zhenwen Liang Linfeng Song Haitao Mi Pratap Tokekar Dong Yu 16 0 0 01 Oct 2025
DeepSketcher: Internalizing Visual Manipulation for Multimodal Reasoning Chi Zhang Haibo Qiu Qiming Zhang Zhixiong Zeng Lin Ma Jing Zhang VGen LRM 0 0 0 30 Sep 2025
TruthRL: Incentivizing Truthful LLMs via Reinforcement Learning Zhepei Wei X. J. Yang Kai Sun Jiaqi Wang Rulin Shao ... Rakesh Wanga Anuj Kumar Yu Meng Wen-tau Yih Xin Luna Dong HILM LRM 15 1 0 30 Sep 2025
VTPerception-R1: Enhancing Multimodal Reasoning via Explicit Visual and Textual Perceptual Grounding Yizhuo Ding M. Ben-Chen Zhibang Feng Tong Xiao Wanying Qu Wenqi Shao Yanwei Fu LRM VLM 3 0 0 29 Sep 2025
ReWatch-R1: Boosting Complex Video Reasoning in Large Vision-Language Models through Agentic Data Synthesis Congzhi Zhang Zhibin Wang Yinchao Ma Jiawei Peng Y. Wang Qiang Zhou Jun Song Bo Zheng OffRL AI4TS LRM 44 0 0 28 Sep 2025
DeFacto: Counterfactual Thinking with Images for Enforcing Evidence-Grounded and Faithful Reasoning Tianrun Xu Haoda Jing Y. Li Yuquan Wei Jun Feng Guanyu Chen Haichuan Gao Tianren Zhang Feng Chen OffRL 11 0 0 25 Sep 2025
A co-evolving agentic AI system for medical imaging analysis Songhao Li Jonathan Xu Tiancheng Bao Yuxuan Liu Yuchen Liu ... Yinuo Xu Yan Cui Jialu Yao Shunsuke Koga Zhi Huang MedIm 8 0 0 24 Sep 2025
Evolving Language Models without Labels: Majority Drives Selection, Novelty Promotes Variation Yujun Zhou Zhenwen Liang Haolin Liu Wenhao Yu Kishan Panaganti Linfeng Song Dian Yu Xiangliang Zhang Haitao Mi Dong Yu 8 6 0 18 Sep 2025
CDE: Curiosity-Driven Exploration for Efficient Reinforcement Learning in Large Language Models Runpeng Dai Linfeng Song Haolin Liu Zhenwen Liang Dian Yu ... Zhaopeng Tu R. Liu Tong Zheng Hongtu Zhu Dong Yu LRM 24 3 0 11 Sep 2025
Parallel-R1: Towards Parallel Thinking via Reinforcement Learning Tong Zheng H. Zhang Wenhao Yu Xiaoyang Wang Runpeng Dai R. Liu Huiwen Bao Chengsong Huang Heng Huang Dong Yu AIMat ReLM OffRL LRM 38 10 0 09 Sep 2025
One Token to Fool LLM-as-a-Judge Yulai Zhao Haolin Liu Dian Yu Sunyuan Kung Meijia Chen Haitao Mi Dong Yu OffRL LRM 14 11 0 11 Jul 2025
Beyond the Linear Separability Ceiling: Aligning Representations in VLMs Enrico Vompa Tanel Tammet Mohit Vaishnav VLM LRM 73 0 0 10 Jul 2025