All Roads Lead to Likelihood: The Value of Reinforcement Learning in Fine-Tuning

3 March 2025

Papers citing "All Roads Lead to Likelihood: The Value of Reinforcement Learning in Fine-Tuning"

4 / 4 papers shown

Title
Visual Test-time Scaling for GUI Agent Grounding Tiange Luo Lajanugen Logeswaran Justin Johnson Honglak Lee 48 0 0 01 May 2025
Deep Reasoning Translation via Reinforcement Learning Jiaan Wang Fandong Meng Jie Zhou OffRL LRM 30 0 0 14 Apr 2025
Enhancing LLM Reasoning with Iterative DPO: A Comprehensive Empirical Investigation Songjun Tu Jiahao Lin Xiangyu Tian Qichao Zhang Linjing Li ... Nan Xu Wei He Xiangyuan Lan D. Jiang Dongbin Zhao LRM 42 2 0 17 Mar 2025
Reinforcement Learning Outperforms Supervised Fine-Tuning: A Case Study on Audio Question Answering Gang Li Jizhong Liu Heinrich Dinkel Yadong Niu Junbo Zhang Jian Luan OffRL LRM ReLM 67 5 0 14 Mar 2025