On the Linear convergence of Natural Policy Gradient Algorithm

4 May 2021

Papers citing "On the Linear convergence of Natural Policy Gradient Algorithm"

42 / 42 papers shown

Title
Natural Policy Gradient for Average Reward Non-Stationary RL Neharika Jali Eshika Pathak Pranay Sharma Guannan Qu Gauri Joshi 27 0 0 23 Apr 2025
Ordering-based Conditions for Global Convergence of Policy Gradient Methods Jincheng Mei Bo Dai Alekh Agarwal Mohammad Ghavamzadeh Csaba Szepesvári Dale Schuurmans 55 4 0 02 Apr 2025
Dual Approximation Policy Optimization Zhihan Xiong Maryam Fazel Lin Xiao 25 1 0 02 Oct 2024
Maximum Entropy On-Policy Actor-Critic via Entropy Advantage Estimation Jean Seong Bjorn Choe Jong-Kook Kim 38 2 0 25 Jul 2024
Understanding Stochastic Natural Gradient Variational Inference Kaiwen Wu Jacob R. Gardner BDL 54 1 0 04 Jun 2024
Recurrent Natural Policy Gradient for POMDPs Semih Cayci A. Eryilmaz 22 0 0 28 May 2024
On the Global Convergence of Policy Gradient in Average Reward Markov Decision Processes Navdeep Kumar Yashaswini Murthy Itai Shufaro Kfir Y. Levy R. Srikant Shie Mannor 34 2 0 11 Mar 2024
Taming Nonconvex Stochastic Mirror Descent with General Bregman Divergence Ilyas Fatkhullin Niao He 27 3 0 27 Feb 2024
Global Convergence of Natural Policy Gradient with Hessian-aided Momentum Variance Reduction Jie Feng Ke Wei Jinchi Chen 20 1 0 02 Jan 2024
Global Convergence of Policy Gradient Methods in Reinforcement Learning, Games and Control Shicong Cen Yuejie Chi 42 1 0 08 Oct 2023
Acceleration in Policy Optimization Veronica Chelu Tom Zahavy A. Guez Doina Precup Sebastian Flennerhag 33 0 0 18 Jun 2023
On the Linear Convergence of Policy Gradient under Hadamard Parameterization Jiacai Liu Jinchi Chen Ke Wei 14 2 0 31 May 2023
Optimal Convergence Rate for Exact Policy Mirror Descent in Discounted Markov Decision Processes Emmeran Johnson Ciara Pike-Burke Patrick Rebeschini 26 11 0 22 Feb 2023
A Novel Framework for Policy Mirror Descent with General Parameterization and Linear Convergence Carlo Alfano Rui Yuan Patrick Rebeschini 54 15 0 30 Jan 2023
The Role of Baselines in Policy Gradient Optimization Jincheng Mei Wesley Chung Valentin Thomas Bo Dai Csaba Szepesvári Dale Schuurmans 13 15 0 16 Jan 2023
Coordinate Ascent for Off-Policy RL with Global Convergence Guarantees Hsin-En Su Yen-Ju Chen Ping-Chun Hsieh Xi Liu OffRL 13 0 0 10 Dec 2022
Geometry and convergence of natural policy gradient methods Johannes Muller Guido Montúfar 8 9 0 03 Nov 2022
Faster Last-iterate Convergence of Policy Optimization in Zero-Sum Markov Games Shicong Cen Yuejie Chi S. Du Lin Xiao 48 35 0 03 Oct 2022
Linear Convergence for Natural Policy Gradient with Log-linear Policy Parametrization Carlo Alfano Patrick Rebeschini 49 13 0 30 Sep 2022
First-order Policy Optimization for Robust Markov Decision Process Yan Li Guanghui Lan Tuo Zhao 73 23 0 21 Sep 2022
Anchor-Changing Regularized Natural Policy Gradient for Multi-Objective Reinforcement Learning Ruida Zhou Tao-Wen Liu D. Kalathil P. R. Kumar Chao Tian 19 12 0 10 Jun 2022
Policy Optimization for Markov Games: Unified Framework and Faster Convergence Runyu Zhang Qinghua Liu Haiquan Wang Caiming Xiong Na Li Yu Bai 8 26 0 06 Jun 2022
Algorithm for Constrained Markov Decision Process with Linear Convergence E. Gladin Maksim Lavrik-Karmazin K. Zainullina Varvara Rudenko Alexander V. Gasnikov Martin Takáč 12 6 0 03 Jun 2022
On the Convergence of Policy in Unregularized Policy Mirror Descent Dachao Lin Zhihua Zhang 11 0 0 17 May 2022
Stochastic first-order methods for average-reward Markov decision processes Tianjiao Li Feiyang Wu Guanghui Lan 19 13 0 11 May 2022
Accelerating Primal-dual Methods for Regularized Markov Decision Processes Haoya Li Hsiang-Fu Yu Lexing Ying Inderjit Dhillon 13 4 0 21 Feb 2022
On the Global Convergence Rates of Decentralized Softmax Gradient Play in Markov Potential Games Runyu Zhang Jincheng Mei Bo Dai Dale Schuurmans Na Li 18 20 0 02 Feb 2022
On the Hidden Biases of Policy Mirror Ascent in Continuous Action Spaces Amrit Singh Bedi Souradip Chakraborty Anjaly Parayil Brian M. Sadler Pratap Tokekar Alec Koppel 41 17 0 28 Jan 2022
Block Policy Mirror Descent Guanghui Lan Yan Li T. Zhao OffRL 11 10 0 15 Jan 2022
Understanding the Effect of Stochasticity in Policy Optimization Jincheng Mei Bo Dai Chenjun Xiao Csaba Szepesvári Dale Schuurmans 11 17 0 29 Oct 2021
Provable Benefits of Actor-Critic Methods for Offline Reinforcement Learning Andrea Zanette Martin J. Wainwright Emma Brunskill OffRL 22 111 0 19 Aug 2021
Global Convergence of the ODE Limit for Online Actor-Critic Algorithms in Reinforcement Learning Ziheng Wang Justin A. Sirignano 18 2 0 19 Aug 2021
A general class of surrogate functions for stable and efficient reinforcement learning Sharan Vaswani Olivier Bachem Simone Totaro Robert Mueller Shivam Garg M. Geist Marlos C. Machado P. S. Castro Nicolas Le Roux OffRL 16 15 0 12 Aug 2021
Linear Convergence of Entropy-Regularized Natural Policy Gradient with Linear Function Approximation Semih Cayci Niao He R. Srikant 10 35 0 08 Jun 2021
Finite-Sample Analysis of Off-Policy Natural Actor-Critic with Linear Function Approximation Zaiwei Chen S. Khodadadian S. T. Maguluri OffRL 43 29 0 26 May 2021
Policy Mirror Descent for Regularized Reinforcement Learning: A Generalized Framework with Linear Convergence Wenhao Zhan Shicong Cen Baihe Huang Yuxin Chen Jason D. Lee Yuejie Chi 9 76 0 24 May 2021
Finite-Sample Analysis of Off-Policy Natural Actor-Critic Algorithm S. Khodadadian Zaiwei Chen S. T. Maguluri CML OffRL 69 26 0 18 Feb 2021
Policy Mirror Descent for Reinforcement Learning: Linear Convergence, New Sampling Complexity, and Generalized Problem Classes Guanghui Lan 87 136 0 30 Jan 2021
Finite Sample Analysis of Two-Time-Scale Natural Actor-Critic Algorithm S. Khodadadian Thinh T. Doan J. Romberg S. T. Maguluri 22 42 0 26 Jan 2021
Approximation Benefits of Policy Gradient Methods with Aggregated States Daniel Russo 30 7 0 22 Jul 2020
A Finite Time Analysis of Two Time-Scale Actor Critic Methods Yue Wu Weitong Zhang Pan Xu Quanquan Gu 88 145 0 04 May 2020
On the Sample Complexity of Actor-Critic Method for Reinforcement Learning with Function Approximation Harshat Kumar Alec Koppel Alejandro Ribeiro 99 79 0 18 Oct 2019