PC-PG: Policy Cover Directed Exploration for Provable Policy Gradient Learning

16 July 2020

Papers citing "PC-PG: Policy Cover Directed Exploration for Provable Policy Gradient Learning"

39 / 39 papers shown

Title
Ordering-based Conditions for Global Convergence of Policy Gradient Methods Jincheng Mei Bo Dai Alekh Agarwal Mohammad Ghavamzadeh Csaba Szepesvári Dale Schuurmans 66 4 0 02 Apr 2025
Random Latent Exploration for Deep Reinforcement Learning Srinath Mahankali Zhang-Wei Hong Ayush Sekhari Alexander Rakhlin Pulkit Agrawal 38 3 0 18 Jul 2024
When is Agnostic Reinforcement Learning Statistically Tractable? Zeyu Jia Gene Li Alexander Rakhlin Ayush Sekhari Nathan Srebro OffRL 34 5 0 09 Oct 2023
A Theoretical Analysis of Optimistic Proximal Policy Optimization in Linear Markov Decision Processes Han Zhong Tong Zhang 37 26 0 15 May 2023
Reinforcement Learning with Function Approximation: From Linear to Nonlinear Jihao Long Jiequn Han 39 5 0 20 Feb 2023
Distributional Offline Policy Evaluation with Predictive Error Guarantees Runzhe Wu Masatoshi Uehara Wen Sun OffRL 40 13 0 19 Feb 2023
Efficient Planning in Combinatorial Action Spaces with Applications to Cooperative Multi-Agent Reinforcement Learning Volodymyr Tkachuk Seyed Alireza Bakhtiari Johannes Kirschner Matej Jusup Ilija Bogunovic Csaba Szepesvári 32 5 0 08 Feb 2023
Improved Regret for Efficient Online Reinforcement Learning with Linear Function Approximation Uri Sherman Tomer Koren Yishay Mansour 34 12 0 30 Jan 2023
Refined Regret for Adversarial MDPs with Linear Function Approximation Yan Dai Haipeng Luo Chen-Yu Wei Julian Zimmert 33 12 0 30 Jan 2023
Sample Efficient Deep Reinforcement Learning via Local Planning Dong Yin S. Thiagarajan N. Lazić Nived Rajaraman Botao Hao Csaba Szepesvári 30 4 0 29 Jan 2023
Off-Policy Evaluation for Action-Dependent Non-Stationary Environments Yash Chandak Shiv Shankar Nathaniel D. Bastian Bruno Castro da Silva Emma Brunskil Philip S. Thomas OffRL 52 6 0 24 Jan 2023
Understanding the Complexity Gains of Single-Task RL with a Curriculum Qiyang Li Yuexiang Zhai Yi Ma Sergey Levine 39 14 0 24 Dec 2022
CIM: Constrained Intrinsic Motivation for Sparse-Reward Continuous Control Xiang Zheng Xingjun Ma Cong Wang 33 1 0 28 Nov 2022
Efficient Global Planning in Large MDPs via Stochastic Primal-Dual Optimization Gergely Neu Nneka Okolo 42 6 0 21 Oct 2022
Exploration via Elliptical Episodic Bonuses Mikael Henaff Roberta Raileanu Minqi Jiang Tim Rocktaschel OffRL 35 40 0 11 Oct 2022
Provably Efficient Reinforcement Learning in Partially Observable Dynamical Systems Masatoshi Uehara Ayush Sekhari Jason D. Lee Nathan Kallus Wen Sun OffRL 51 32 0 24 Jun 2022
Stabilizing Q-learning with Linear Architectures for Provably Efficient Learning Andrea Zanette Martin J. Wainwright OOD 45 5 0 01 Jun 2022
Non-Markovian policies occupancy measures Romain Laroche Rémi Tachet des Combes Jacob Buckman OffRL 39 1 0 27 May 2022
The Complexity of Markov Equilibrium in Stochastic Games C. Daskalakis Noah Golowich Kaipeng Zhang 41 56 0 08 Apr 2022
Jump-Start Reinforcement Learning Ikechukwu Uchendu Ted Xiao Yao Lu Banghua Zhu Mengyuan Yan ... Chuyuan Fu Cong Ma Jiantao Jiao Sergey Levine Karol Hausman OffRL OnRL 44 109 0 05 Apr 2022
Efficient Reinforcement Learning in Block MDPs: A Model-free Representation Learning Approach Xuezhou Zhang Yuda Song Masatoshi Uehara Mengdi Wang Alekh Agarwal Wen Sun OffRL 34 57 0 31 Jan 2022
Optimistic Policy Optimization is Provably Efficient in Non-stationary MDPs Han Zhong Zhuoran Yang Zhaoran Wang Csaba Szepesvári 49 21 0 18 Oct 2021
Representation Learning for Online and Offline RL in Low-rank MDPs Masatoshi Uehara Xuezhou Zhang Wen Sun OffRL 67 127 0 09 Oct 2021
Theoretical Guarantees of Fictitious Discount Algorithms for Episodic Reinforcement Learning and Global Convergence of Policy Gradient Methods Xin Guo Anran Hu Junzi Zhang OffRL 31 6 0 13 Sep 2021
A Boosting Approach to Reinforcement Learning Nataly Brukhim Elad Hazan Karan Singh 37 13 0 22 Aug 2021
Efficient Local Planning with Linear Function Approximation Dong Yin Botao Hao Yasin Abbasi-Yadkori N. Lazić Csaba Szepesvári 34 19 0 12 Aug 2021
Policy Optimization in Adversarial MDPs: Improved Exploration via Dilated Bonuses Haipeng Luo Chen-Yu Wei Chung-Wei Lee 38 44 0 18 Jul 2021
On the Sample Complexity and Metastability of Heavy-tailed Policy Search in Continuous Control Amrit Singh Bedi Anjaly Parayil Junyu Zhang Mengdi Wang Alec Koppel 38 15 0 15 Jun 2021
Navigating to the Best Policy in Markov Decision Processes Aymen Al Marjani Aurélien Garivier Alexandre Proutiere 37 21 0 05 Jun 2021
Cautiously Optimistic Policy Optimization and Exploration with Linear Function Approximation Andrea Zanette Ching-An Cheng Alekh Agarwal 34 53 0 24 Mar 2021
Model-free Representation Learning and Exploration in Low-rank MDPs Aditya Modi Jinglin Chen A. Krishnamurthy Nan Jiang Alekh Agarwal OffRL 102 78 0 14 Feb 2021
Robust Policy Gradient against Strong Data Corruption Xuezhou Zhang Yiding Chen Xiaojin Zhu Wen Sun AAML 42 37 0 11 Feb 2021
Provably Efficient Reinforcement Learning with Linear Function Approximation Under Adaptivity Constraints Chi Jin Zhuoran Yang Zhaoran Wang OffRL 122 167 0 06 Jan 2021
Exponential Lower Bounds for Batch Reinforcement Learning: Batch RL can be Exponentially Harder than Online RL Andrea Zanette OffRL 28 71 0 14 Dec 2020
Global optimality of softmax policy gradient with single hidden layer neural networks in the mean-field regime Andrea Agazzi Jianfeng Lu 23 15 0 22 Oct 2020
Sample Efficient Reinforcement Learning with REINFORCE Junzi Zhang Jongho Kim Brendan O'Donoghue Stephen P. Boyd 42 101 0 22 Oct 2020
Provably Efficient Reward-Agnostic Navigation with Linear Value Iteration Andrea Zanette A. Lazaric Mykel J. Kochenderfer Emma Brunskill 36 64 0 18 Aug 2020
FLAMBE: Structural Complexity and Representation Learning of Low Rank MDPs Alekh Agarwal Sham Kakade A. Krishnamurthy Wen Sun OffRL 41 223 0 18 Jun 2020
Optimism in Reinforcement Learning with Generalized Linear Function Approximation Yining Wang Ruosong Wang S. Du A. Krishnamurthy 137 135 0 09 Dec 2019