The Role of Baselines in Policy Gradient Optimization

The Role of Baselines in Policy Gradient Optimization

16 January 2023

Valentin Thomas

Csaba Szepesvári

Dale Schuurmans

Papers citing "The Role of Baselines in Policy Gradient Optimization"

13 / 13 papers shown

Title
Ordering-based Conditions for Global Convergence of Policy Gradient Methods Jincheng Mei Bo Dai Alekh Agarwal Mohammad Ghavamzadeh Csaba Szepesvári Dale Schuurmans 55 4 0 02 Apr 2025
Enhancing PPO with Trajectory-Aware Hybrid Policies Qisai Liu Zhanhong Jiang Hsin-Jung Yang Mahsa Khosravi Joshua R. Waite S. Sarkar 44 0 0 21 Feb 2025
Small steps no more: Global convergence of stochastic gradient bandits for arbitrary learning rates Jincheng Mei Bo Dai Alekh Agarwal Sharan Vaswani Anant Raj Csaba Szepesvári Dale Schuurmans 87 0 0 11 Feb 2025
QuantFactor REINFORCE: Mining Steady Formulaic Alpha Factors with Variance-bounded REINFORCE Junjie Zhao Chengxi Zhang Min Qin Peng Yang OOD 31 3 0 08 Sep 2024
Policy Gradient with Active Importance Sampling Matteo Papini Giorgio Manganini Alberto Maria Metelli Marcello Restelli OffRL 23 1 0 09 May 2024
Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data Fahim Tajwar Anika Singh Archit Sharma Rafael Rafailov Jeff Schneider Tengyang Xie Stefano Ermon Chelsea Finn Aviral Kumar 33 105 0 22 Apr 2024
RLHF Deciphered: A Critical Analysis of Reinforcement Learning from Human Feedback for LLMs Shreyas Chaudhari Pranjal Aggarwal Vishvak Murahari Tanmay Rajpurohit A. Kalyan Karthik Narasimhan A. Deshpande Bruno Castro da Silva 21 34 0 12 Apr 2024
Stochastic Gradient Succeeds for Bandits Jincheng Mei Zixin Zhong Bo Dai Alekh Agarwal Csaba Szepesvári Dale Schuurmans 21 1 0 27 Feb 2024
ReMax: A Simple, Effective, and Efficient Reinforcement Learning Method for Aligning Large Language Models Ziniu Li Tian Xu Yushun Zhang Zhihang Lin Yang Yu Ruoyu Sun Zhimin Luo 19 47 0 16 Oct 2023
High-performance real-world optical computing trained by in situ model-free optimization Guangyuan Zhao Xin Shu R. Zhou 9 1 0 22 Jul 2023
Acceleration in Policy Optimization Veronica Chelu Tom Zahavy A. Guez Doina Precup Sebastian Flennerhag 33 0 0 18 Jun 2023
On the Convergence and Sample Efficiency of Variance-Reduced Policy Gradient Method Junyu Zhang Chengzhuo Ni Zheng Yu Csaba Szepesvári Mengdi Wang 44 67 0 17 Feb 2021
Policy Mirror Descent for Reinforcement Learning: Linear Convergence, New Sampling Complexity, and Generalized Problem Classes Guanghui Lan 87 136 0 30 Jan 2021