Interpolated Policy Gradient: Merging On-Policy and Off-Policy Gradient Estimation for Deep Reinforcement Learning

1 June 2017

Papers citing "Interpolated Policy Gradient: Merging On-Policy and Off-Policy Gradient Estimation for Deep Reinforcement Learning"

29 / 29 papers shown

Title
Intrinsic Language-Guided Exploration for Complex Long-Horizon Robotic Manipulation Tasks Wenke Huang Filippos Christianos Zhibin Li 44 8 0 28 Sep 2023
Distillation Policy Optimization Jianfei Ma OffRL 26 1 0 01 Feb 2023
Coordinate Ascent for Off-Policy RL with Global Convergence Guarantees Hsin-En Su Yen-Ju Chen Ping-Chun Hsieh Xi Liu OffRL 26 0 0 10 Dec 2022
Evolutionary Deep Reinforcement Learning for Dynamic Slice Management in O-RAN Fatemeh Lotfi Omid Semiari Fatemeh Afghah 22 12 0 30 Aug 2022
Generalized Policy Improvement Algorithms with Theoretically Supported Sample Reuse James Queeney I. Paschalidis Christos G. Cassandras OffRL 32 2 0 28 Jun 2022
Adaptively Calibrated Critic Estimates for Deep Reinforcement Learning Nicolai Dorka Tim Welschehold Joschka Boedecker Wolfram Burgard OffRL 30 9 0 24 Nov 2021
Generalized Proximal Policy Optimization with Sample Reuse James Queeney I. Paschalidis Christos G. Cassandras OffRL 40 47 0 29 Oct 2021
Joint Multi-Dimension Pruning via Numerical Gradient Update Zechun Liu Xinming Zhang Zhiqiang Shen Zhe Li Yichen Wei Kwang-Ting Cheng Jian Sun 47 19 0 18 May 2020
Direct and indirect reinforcement learning Yang Guan Shengbo Eben Li Jingliang Duan Jie Li Yangang Ren Qi Sun B. Cheng OffRL 38 34 0 23 Dec 2019
Multi-Path Policy Optimization L. Pan Qingpeng Cai Longbo Huang 18 2 0 11 Nov 2019
Better Exploration with Optimistic Actor-Critic K. Ciosek Q. Vuong R. Loftin Katja Hofmann 29 149 0 28 Oct 2019
VILD: Variational Imitation Learning with Diverse-quality Demonstrations Voot Tangkaratt Bo Han Mohammad Emtiyaz Khan Masashi Sugiyama 25 20 0 15 Sep 2019
P3O: Policy-on Policy-off Policy Optimization Rasool Fakoor Pratik Chaudhari Alex Smola OffRL 29 51 0 05 May 2019
Sample-Efficient Model-Free Reinforcement Learning with Off-Policy Critics Denis Steckelmacher Hélène Plisnier D. Roijers A. Nowé OffRL 26 17 0 11 Mar 2019
On-Policy Trust Region Policy Optimisation with Replay Buffers D. Kangin N. Pugeault OffRL 14 3 0 18 Jan 2019
A Survey and Critique of Multiagent Deep Reinforcement Learning Pablo Hernandez-Leal Bilal Kartal Matthew E. Taylor OffRL 48 553 0 12 Oct 2018
Variance Reduction for Reinforcement Learning in Input-Driven Environments Hongzi Mao S. Venkatakrishnan Malte Schwarzkopf Mohammad Alizadeh OffRL 41 95 0 06 Jul 2018
Qualitative Measurements of Policy Discrepancy for Return-Based Deep Q-Network Wenjia Meng Qian Zheng L. Yang Pengfei Li Gang Pan 20 21 0 14 Jun 2018
Data-Efficient Hierarchical Reinforcement Learning Ofir Nachum S. Gu Honglak Lee Sergey Levine OffRL 68 797 0 21 May 2018
An Adaptive Clipping Approach for Proximal Policy Optimization Gang Chen Yiming Peng Mengjie Zhang 22 22 0 17 Apr 2018
Policy Search in Continuous Action Domains: an Overview Olivier Sigaud F. Stulp 16 72 0 13 Mar 2018
The Mirage of Action-Dependent Baselines in Reinforcement Learning George Tucker Surya Bhupatiraju S. Gu Richard Turner Zoubin Ghahramani Sergey Levine OffRL 30 126 0 27 Feb 2018
Multi-Goal Reinforcement Learning: Challenging Robotics Environments and Request for Research Matthias Plappert Marcin Andrychowicz Alex Ray Bob McGrew Bowen Baker ... Joshua Tobin Maciek Chociej Peter Welinder Vikash Kumar Wojciech Zaremba 33 557 0 26 Feb 2018
Clipped Action Policy Gradient Yasuhiro Fujita S. Maeda OffRL 34 37 0 21 Feb 2018
Accelerated Primal-Dual Policy Optimization for Safe Reinforcement Learning Qingkai Liang Fanyu Que E. Modiano 23 101 0 19 Feb 2018
Expected Policy Gradients for Reinforcement Learning K. Ciosek Shimon Whiteson 50 51 0 10 Jan 2018
Backpropagation through the Void: Optimizing control variates for black-box gradient estimation Will Grathwohl Dami Choi Yuhuai Wu Geoffrey Roeder David Duvenaud 56 300 0 31 Oct 2017
A Brief Survey of Deep Reinforcement Learning Kai Arulkumaran M. Deisenroth Miles Brundage Anil Anthony Bharath OffRL 65 2,780 0 19 Aug 2017
Deep Reinforcement Learning: An Overview Yuxi Li OffRL VLM 104 1,505 0 25 Jan 2017