Trust Region Preference Approximation: A simple and stable reinforcement learning algorithm for LLM reasoning

6 April 2025

Papers citing "Trust Region Preference Approximation: A simple and stable reinforcement learning algorithm for LLM reasoning"

1 / 1 papers shown

Title
Learning to Reason under Off-Policy Guidance Jianhao Yan Yafu Li Zican Hu Zhi Wang Ganqu Cui Xiaoye Qu Yu Cheng Yue Zhang OffRL LRM 36 0 0 21 Apr 2025