Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

18 April 2025

Papers citing "Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?"

2 / 2 papers shown

Title
Unified Multimodal Chain-of-Thought Reward Model through Reinforcement Fine-Tuning Yibin Wang Zhimin Li Yuhang Zang Chunyu Wang Qinglin Lu Cheng Jin J. T. Wang LRM 27 39 0 06 May 2025
Reinforcement Learning for Reasoning in Large Language Models with One Training Example Yiping Wang Qing Yang Zhiyuan Zeng Liliang Ren L. Liu ... Jianfeng Gao Weizhu Chen S. Wang Simon S. Du Yelong Shen OffRL ReLM LRM 105 1 0 29 Apr 2025