Expected Policy Gradients

15 June 2017

Papers citing "Expected Policy Gradients"

22 / 22 papers shown

Title
Matrix Low-Rank Trust Region Policy Optimization Sergio Rozada Antonio G. Marques 45 0 0 27 May 2024
Coordinate Ascent for Off-Policy RL with Global Convergence Guarantees Hsin-En Su Yen-Ju Chen Ping-Chun Hsieh Xi Liu OffRL 28 0 0 10 Dec 2022
Beyond the Policy Gradient Theorem for Efficient Policy Updates in Actor-Critic Algorithms Romain Laroche Rémi Tachet des Combes 48 2 0 15 Feb 2022
Flexible Option Learning Martin Klissarov Doina Precup OffRL 41 26 0 06 Dec 2021
Dr Jekyll and Mr Hyde: the Strange Case of Off-Policy Policy Updates Romain Laroche Rémi Tachet des Combes 46 8 0 29 Sep 2021
Softmax Deep Double Deterministic Policy Gradients Ling Pan Qingpeng Cai Longbo Huang 72 86 0 19 Oct 2020
F2A2: Flexible Fully-decentralized Approximate Actor-critic for Cooperative Multi-agent Reinforcement Learning Wenhao Li Bo Jin Xiangfeng Wang Junchi Yan H. Zha 25 21 0 17 Apr 2020
Better Exploration with Optimistic Actor-Critic K. Ciosek Q. Vuong R. Loftin Katja Hofmann 29 149 0 28 Oct 2019
All-Action Policy Gradient Methods: A Numerical Integration Approach Benjamin Petit Loren Amdahl-Culleton Yao Liu Jimmy T.H. Smith Pierre-Luc Bacon 24 9 0 21 Oct 2019
Deep Active Inference as Variational Policy Gradients Beren Millidge BDL 32 103 0 08 Jul 2019
DAC: The Double Actor-Critic Architecture for Learning Options Shangtong Zhang Shimon Whiteson 30 72 0 29 Apr 2019
On-Policy Trust Region Policy Optimisation with Replay Buffers D. Kangin N. Pugeault OffRL 16 3 0 18 Jan 2019
Relative Entropy Regularized Policy Iteration A. Abdolmaleki Jost Tobias Springenberg Jonas Degrave Steven Bohez Yuval Tassa Dan Belov N. Heess Martin Riedmiller 27 72 0 05 Dec 2018
VIREL: A Variational Inference Framework for Reinforcement Learning M. Fellows Anuj Mahajan Tim G. J. Rudner Shimon Whiteson DRL 38 54 0 03 Nov 2018
Actor-Critic Policy Optimization in Partially Observable Multiagent Environments S. Srinivasan Marc Lanctot V. Zambaldi Julien Perolat K. Tuyls Rémi Munos Michael Bowling 13 148 0 21 Oct 2018
A survey on policy search algorithms for learning robot controllers in a handful of trials Konstantinos Chatzilygeroudis Vassilis Vassiliades F. Stulp Sylvain Calinon Jean-Baptiste Mouret 17 155 0 06 Jul 2018
Maximum a Posteriori Policy Optimisation A. Abdolmaleki Jost Tobias Springenberg Yuval Tassa Rémi Munos N. Heess Martin Riedmiller 48 471 0 14 Jun 2018
Reward Estimation for Variance Reduction in Deep Reinforcement Learning Joshua Romoff Peter Henderson Alexandre Piché Vincent François-Lavet Joelle Pineau 11 42 0 09 May 2018
Clipped Action Policy Gradient Yasuhiro Fujita S. Maeda OffRL 34 37 0 21 Feb 2018
Fourier Policy Gradients M. Fellows K. Ciosek Shimon Whiteson 35 15 0 19 Feb 2018
Expected Policy Gradients for Reinforcement Learning K. Ciosek Shimon Whiteson 50 51 0 10 Jan 2018
Mean Actor Critic Cameron Allen Kavosh Asadi Melrose Roderick Abdel-rahman Mohamed George Konidaris Michael Littman 28 44 0 01 Sep 2017