Trajectory Bellman Residual Minimization: A Simple Value-Based Method for LLM Reasoning

21 May 2025

Papers citing "Trajectory Bellman Residual Minimization: A Simple Value-Based Method for LLM Reasoning"

1 / 1 papers shown

Title
Bridging Supervised Learning and Reinforcement Learning in Math Reasoning Huayu Chen Kaiwen Zheng Qinsheng Zhang Ganqu Cui Yin Cui Haotian Ye Tsung-Yi Lin Ming-Yu Liu Jun Zhu Haoxiang Wang OffRL LRM 27 0 0 23 May 2025