On Designing Effective RL Reward at Training Time for LLM Reasoning

On Designing Effective RL Reward at Training Time for LLM Reasoning

19 October 2024

Yi Wu

Papers citing "On Designing Effective RL Reward at Training Time for LLM Reasoning"

4 / 4 papers shown

Title
Reinforcement Learning for Reasoning in Large Language Models with One Training Example Yiping Wang Qing Yang Zhiyuan Zeng Liliang Ren L. Liu ... Jianfeng Gao Weizhu Chen S. Wang Simon S. Du Yelong Shen OffRL ReLM LRM 108 2 0 29 Apr 2025
Nemotron-Research-Tool-N1: Exploring Tool-Using Language Models with Reinforced Reasoning Shaokun Zhang Yi Dong Jieyu Zhang Jan Kautz Bryan Catanzaro Andrew Tao Qingyun Wu Zhiding Yu Guilin Liu LLMAG OffRL KELM LRM 86 0 0 25 Apr 2025
IPO: Your Language Model is Secretly a Preference Classifier Shivank Garg Ayush Singh Shweta Singh Paras Chopra 47 1 0 22 Feb 2025
PRMBench: A Fine-grained and Challenging Benchmark for Process-Level Reward Models Mingyang Song Zhaochen Su Xiaoye Qu Jiawei Zhou Yu-Xi Cheng LRM 41 29 0 06 Jan 2025