Relative Entropy Regularized Policy Iteration

5 December 2018

A. Abdolmaleki

Jost Tobias Springenberg

Martin Riedmiller

Papers citing "Relative Entropy Regularized Policy Iteration"

26 / 26 papers shown

Title
The Definitive Guide to Policy Gradients in Deep Reinforcement Learning: Theory, Algorithms and Implementations Matthias Lehmann 43 0 0 24 Jan 2024
Bridging the Gap Between Target Networks and Functional Regularization Alexandre Piché Valentin Thomas Joseph Marino Rafael Pardiñas Gian Maria Marconi C. Pal Mohammad Emtiyaz Khan 14 1 0 21 Oct 2022
Augmentative Topology Agents For Open-Ended Learning Muhammad Umair Nasir Michael Beukman Steven D. James C. Cleghorn 32 3 0 20 Oct 2022
Revisiting Gaussian mixture critics in off-policy reinforcement learning: a sample-based approach Bobak Shahriari A. Abdolmaleki Arunkumar Byravan A. Friesen Siqi Liu Jost Tobias Springenberg N. Heess Matthew W. Hoffman Martin Riedmiller OffRL 46 9 0 21 Apr 2022
Forgetting and Imbalance in Robot Lifelong Learning with Off-policy Data Wenxuan Zhou Steven Bohez Jan Humplik A. Abdolmaleki Dushyant Rao Markus Wulfmeier Tuomas Haarnoja N. Heess OffRL 32 6 0 12 Apr 2022
Conservative Distributional Reinforcement Learning with Safety Constraints Hengrui Zhang Youfang Lin Sheng Han Shuo Wang Kai Lv OffRL 21 5 0 18 Jan 2022
Is Bang-Bang Control All You Need? Solving Continuous Control with Bernoulli Policies Tim Seyde Igor Gilitschenski Wilko Schwarting Bartolomeo Stellato Martin Riedmiller Markus Wulfmeier Daniela Rus 26 44 0 03 Nov 2021
Evaluating model-based planning and planner amortization for continuous control Arunkumar Byravan Leonard Hasenclever Piotr Trochim M. Berk Mirza Alessandro Davide Ialongo ... Jost Tobias Springenberg A. Abdolmaleki N. Heess J. Merel Martin Riedmiller 55 17 0 07 Oct 2021
CoBERL: Contrastive BERT for Reinforcement Learning Andrea Banino Adria Puidomenech Badia Jacob Walker Tim Scholtes Jovana Mitrović Charles Blundell OffRL 30 36 0 12 Jul 2021
Goal-Conditioned Reinforcement Learning with Imagined Subgoals Elliot Chane-Sane Cordelia Schmid Ivan Laptev 21 140 0 01 Jul 2021
Behavior Priors for Efficient Reinforcement Learning Dhruva Tirumala Alexandre Galashov Hyeonwoo Noh Leonard Hasenclever Razvan Pascanu ... Guillaume Desjardins Wojciech M. Czarnecki Arun Ahuja Yee Whye Teh N. Heess 37 39 0 27 Oct 2020
Robust Constrained Reinforcement Learning for Continuous Control with Model Misspecification D. Mankowitz D. A. Calian Rae Jeong Cosmin Paduraru N. Heess Sumanth Dathathri Martin Riedmiller Timothy A. Mann 24 11 0 20 Oct 2020
Learning Dexterous Manipulation from Suboptimal Experts Rae Jeong Jost Tobias Springenberg Jackie Kay Daniel Zheng Yuxiang Zhou Alexandre Galashov N. Heess F. Nori OffRL 15 36 0 16 Oct 2020
Data-efficient Hindsight Off-policy Option Learning Markus Wulfmeier Dushyant Rao Roland Hafner Thomas Lampe A. Abdolmaleki ... Michael Neunert Dhruva Tirumala Noah Y. Siegel N. Heess Martin Riedmiller OffRL 23 47 0 30 Jul 2020
A Distributional View on Multi-Objective Policy Optimization A. Abdolmaleki Sandy H. Huang Leonard Hasenclever Michael Neunert H. F. Song Martina Zambelli M. Martins N. Heess R. Hadsell Martin Riedmiller 21 74 0 15 May 2020
Continuous-Discrete Reinforcement Learning for Hybrid Control in Robotics Michael Neunert A. Abdolmaleki Markus Wulfmeier Thomas Lampe Jost Tobias Springenberg Roland Hafner Francesco Romano J. Buchli N. Heess Martin Riedmiller 13 91 0 02 Jan 2020
Discrete and Continuous Action Representation for Practical RL in Video Games Olivier Delalleau Maxim Peter Eloi Alonso Adrien Logut 17 52 0 23 Dec 2019
Imagined Value Gradients: Model-Based Policy Optimization with Transferable Latent Dynamics Models Arunkumar Byravan Jost Tobias Springenberg A. Abdolmaleki Roland Hafner Michael Neunert Thomas Lampe Noah Y. Siegel N. Heess Martin Riedmiller OffRL 11 41 0 09 Oct 2019
V-MPO: On-Policy Maximum a Posteriori Policy Optimization for Discrete and Continuous Control H. F. Song A. Abdolmaleki Jost Tobias Springenberg Aidan Clark Hubert Soyer ... Dhruva Tirumala N. Heess Dan Belov Martin Riedmiller M. Botvinick 29 121 0 26 Sep 2019
Modified Actor-Critics Erinc Merdivan S. Hanke M. Geist 19 2 0 02 Jul 2019
Stochastic Latent Actor-Critic: Deep Reinforcement Learning with a Latent Variable Model Alex X. Lee Anusha Nagabandi Pieter Abbeel Sergey Levine OffRL BDL 25 371 0 01 Jul 2019
Compositional Transfer in Hierarchical Reinforcement Learning Markus Wulfmeier A. Abdolmaleki Roland Hafner Jost Tobias Springenberg Michael Neunert Tim Hertweck Thomas Lampe Noah Y. Siegel N. Heess Martin Riedmiller 19 27 0 26 Jun 2019
Policy Search by Target Distribution Learning for Continuous Control Chuheng Zhang Yuanqi Li Jian Li 19 6 0 27 May 2019
Q-Learning for Continuous Actions with Cross-Entropy Guided Policies Riley Simmons-Edler Ben Eisner E. Mitchell Sebastian Seung Daniel D. Lee 26 28 0 25 Mar 2019
PPO-CMA: Proximal Policy Optimization with Covariance Matrix Adaptation Perttu Hämäläinen Amin Babadi Xiaoxiao Ma J. Lehtinen 29 62 0 05 Oct 2018
Emergence of Locomotion Behaviours in Rich Environments N. Heess TB Dhruva S. Sriram Jay Lemmon J. Merel ... Tom Erez Ziyun Wang S. M. Ali Eslami Martin Riedmiller David Silver 140 928 0 07 Jul 2017