Global Optimality Guarantees For Policy Gradient Methods

5 June 2019

Papers citing "Global Optimality Guarantees For Policy Gradient Methods"

22 / 122 papers shown

Title
Policy Mirror Descent for Regularized Reinforcement Learning: A Generalized Framework with Linear Convergence Wenhao Zhan Shicong Cen Baihe Huang Yuxin Chen Jason D. Lee Yuejie Chi 19 76 0 24 May 2021
Cautiously Optimistic Policy Optimization and Exploration with Linear Function Approximation Andrea Zanette Ching-An Cheng Alekh Agarwal 32 52 0 24 Mar 2021
Provably Correct Optimization and Exploration with Non-linear Policies Fei Feng W. Yin Alekh Agarwal Lin F. Yang 14 13 0 22 Mar 2021
Softmax Policy Gradient Methods Can Take Exponential Time to Converge Gen Li Yuting Wei Yuejie Chi Yuxin Chen 21 50 0 22 Feb 2021
Provably Efficient Policy Optimization for Two-Player Zero-Sum Markov Games Yulai Zhao Yuandong Tian Jason D. Lee S. Du OffRL 41 18 0 17 Feb 2021
On the Convergence and Sample Efficiency of Variance-Reduced Policy Gradient Method Junyu Zhang Chengzhuo Ni Zheng Yu Csaba Szepesvári Mengdi Wang 44 67 0 17 Feb 2021
Improper Reinforcement Learning with Gradient-based Policy Optimization Mohammadi Zaki Avinash Mohan Aditya Gopalan Shie Mannor 8 0 0 16 Feb 2021
Towards Understanding Asynchronous Advantage Actor-critic: Convergence and Linear Speedup Han Shen K. Zhang Min-Fong Hong Tianyi Chen 27 28 0 31 Dec 2020
A Study of Policy Gradient on a Class of Exactly Solvable Models Gavin McCracken Colin Daniels Rosie Zhao Anna M. Brandenberger Prakash Panangaden Doina Precup 7 0 0 03 Nov 2020
Finding the Near Optimal Policy via Adaptive Reduced Regularization in MDPs Wenhao Yang Xiang Li Guangzeng Xie Zhihua Zhang 45 5 0 31 Oct 2020
Entropy Regularization for Mean Field Games with Learning Xin Guo Renyuan Xu T. Zariphopoulou OOD 24 73 0 30 Sep 2020
On the Sample Complexity of Reinforcement Learning with Policy Space Generalization Wenlong Mou Zheng Wen Xi Chen 6 10 0 17 Aug 2020
Approximation Benefits of Policy Gradient Methods with Aggregated States Daniel Russo 38 7 0 22 Jul 2020
A Short Note on Soft-max and Policy Gradients in Bandits Problems N. Walton 14 1 0 20 Jul 2020
Regret Analysis of a Markov Policy Gradient Algorithm for Multi-arm Bandits D. Denisov N. Walton 21 8 0 20 Jul 2020
Improving Sample Complexity Bounds for (Natural) Actor-Critic Algorithms Tengyu Xu Zhe Wang Yingbin Liang 16 25 0 27 Apr 2020
Upper Confidence Primal-Dual Reinforcement Learning for CMDP with Adversarial Loss Shuang Qiu Xiaohan Wei Zhuoran Yang Jieping Ye Zhaoran Wang 12 46 0 02 Mar 2020
Non-asymptotic Convergence of Adam-type Reinforcement Learning Algorithms under Markovian Sampling Huaqing Xiong Tengyu Xu Yingbin Liang Wei Zhang 17 33 0 15 Feb 2020
Scalable Reinforcement Learning for Multi-Agent Networked Systems Guannan Qu Adam Wierman Na Li 14 31 0 05 Dec 2019
Smoothing Policies and Safe Policy Gradients Matteo Papini Matteo Pirotta Marcello Restelli 19 29 0 08 May 2019
Linear Convergence of Gradient and Proximal-Gradient Methods Under the Polyak-Łojasiewicz Condition Hamed Karimi J. Nutini Mark W. Schmidt 133 1,198 0 16 Aug 2016
A Proximal Stochastic Gradient Method with Progressive Variance Reduction Lin Xiao Tong Zhang ODL 84 736 0 19 Mar 2014