Large-Scale Data Selection for Instruction Tuning

3 March 2025

Papers citing "Large-Scale Data Selection for Instruction Tuning"

1 / 1 papers shown

Title
Reinforcement Learning for Reasoning in Large Language Models with One Training Example Yiping Wang Qing Yang Zhiyuan Zeng Liliang Ren L. Liu ... Jianfeng Gao Weizhu Chen S. Wang Simon S. Du Yelong Shen OffRL ReLM LRM 108 2 0 29 Apr 2025