Combining policy gradient and Q-learning

5 November 2016

Papers citing "Combining policy gradient and Q-learning"

40 / 90 papers shown

Title
Compatible Natural Gradient Policy Search Joni Pajarinen Hong Linh Thai R. Akrour Jan Peters Gerhard Neumann 14 21 0 07 Feb 2019
Tsallis Reinforcement Learning: A Unified Framework for Maximum Entropy Reinforcement Learning Kyungjae Lee Sungyub Kim Sungbin Lim Sungjoon Choi Songhwai Oh 11 28 0 31 Jan 2019
Learning to Walk via Deep Reinforcement Learning Tuomas Haarnoja Sehoon Ha Aurick Zhou Jie Tan George Tucker Sergey Levine 54 433 0 26 Dec 2018
Soft Actor-Critic Algorithms and Applications Tuomas Haarnoja Aurick Zhou Kristian Hartikainen George Tucker Sehoon Ha ... Vikash Kumar Henry Zhu Abhishek Gupta Pieter Abbeel Sergey Levine 16 2,362 0 13 Dec 2018
Learning Montezuma's Revenge from a Single Demonstration Tim Salimans Richard J. Chen 36 136 0 08 Dec 2018
An Introduction to Deep Reinforcement Learning Vincent François-Lavet Peter Henderson Riashat Islam Marc G. Bellemare Joelle Pineau OffRL AI4CE 82 1,234 0 30 Nov 2018
Experience Replay for Continual Learning David Rolnick Arun Ahuja Jonathan Richard Schwarz Timothy Lillicrap Greg Wayne CLL 14 1,110 0 28 Nov 2018
Deep Reinforcement Learning for Autonomous Driving Sen Wang Daoyuan Jia Xinshuo Weng 14 164 0 28 Nov 2018
Analysing Results from AI Benchmarks: Key Indicators and How to Obtain Them Fernando Martínez-Plumed José Hernández-Orallo 9 39 0 20 Nov 2018
Using Deep Reinforcement Learning for the Continuous Control of Robotic Arms Winfried Lötzsch 15 3 0 15 Oct 2018
Deep Reinforcement Learning Yuxi Li VLM OffRL 28 144 0 15 Oct 2018
Parametrized Deep Q-Networks Learning: Reinforcement Learning with Discrete-Continuous Hybrid Action Space Jiechao Xiong Qing Wang Zhuoran Yang Peng Sun Lei Han Yang Zheng Haobo Fu Tong Zhang Ji Liu Han Liu 35 168 0 10 Oct 2018
Effective Exploration for Deep Reinforcement Learning via Bootstrapped Q-Ensembles under Tsallis Entropy Regularization Gang Chen Yiming Peng Mengjie Zhang 14 14 0 02 Sep 2018
Policy Optimization as Wasserstein Gradient Flows Ruiyi Zhang Changyou Chen Chunyuan Li Lawrence Carin 14 66 0 09 Aug 2018
Maximum a Posteriori Policy Optimisation A. Abdolmaleki Jost Tobias Springenberg Yuval Tassa Rémi Munos N. Heess Martin Riedmiller 48 470 0 14 Jun 2018
Implicit Policy for Reinforcement Learning Yunhao Tang Shipra Agrawal 17 14 0 10 Jun 2018
Efficient Entropy for Policy Gradient with Multidimensional Action Space Yiming Zhang Q. Vuong Kenny Song Xiao-Yue Gong Keith Ross 27 17 0 02 Jun 2018
Reinforcement Learning and Control as Probabilistic Inference: Tutorial and Review Sergey Levine AI4CE BDL 27 658 0 02 May 2018
Recall Traces: Backtracking Models for Efficient Reinforcement Learning Anirudh Goyal Philemon Brakel W. Fedus Soumye Singhal Timothy Lillicrap Sergey Levine Hugo Larochelle Yoshua Bengio OffRL 23 67 0 02 Apr 2018
Policy Search in Continuous Action Domains: an Overview Olivier Sigaud F. Stulp 16 72 0 13 Mar 2018
Deep Reinforcement Learning for Vision-Based Robotic Grasping: A Simulated Comparative Evaluation of Off-Policy Methods Deirdre Quillen Eric Jang Ofir Nachum Chelsea Finn Julian Ibarz Sergey Levine OOD OffRL 19 202 0 28 Feb 2018
The Mirage of Action-Dependent Baselines in Reinforcement Learning George Tucker Surya Bhupatiraju S. Gu Richard Turner Zoubin Ghahramani Sergey Levine OffRL 27 126 0 27 Feb 2018
Evolved Policy Gradients Rein Houthooft Richard Y. Chen Phillip Isola Bradly C. Stadie Filip Wolski Jonathan Ho Pieter Abbeel 49 227 0 13 Feb 2018
Path Consistency Learning in Tsallis Entropy Regularized MDPs Ofir Nachum Yinlam Chow Mohammad Ghavamzadeh 13 45 0 10 Feb 2018
IMPALA: Scalable Distributed Deep-RL with Importance Weighted Actor-Learner Architectures L. Espeholt Hubert Soyer Rémi Munos Karen Simonyan Volodymyr Mnih ... Vlad Firoiu Tim Harley Iain Dunning Shane Legg Koray Kavukcuoglu 18 1,574 0 05 Feb 2018
Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor Tuomas Haarnoja Aurick Zhou Pieter Abbeel Sergey Levine 21 8,140 0 04 Jan 2018
A short variational proof of equivalence between policy gradients and soft Q learning Pierre Harvey Richemond B. Maginnis 16 5 0 22 Dec 2017
Regret Minimization for Partially Observable Deep Reinforcement Learning Peter H. Jin Kurt Keutzer Sergey Levine 21 51 0 31 Oct 2017
Unifying Value Iteration, Advantage Learning, and Dynamic Policy Programming Tadashi Kozuno E. Uchibe Kenji Doya 25 3 0 30 Oct 2017
Rainbow: Combining Improvements in Deep Reinforcement Learning Matteo Hessel Joseph Modayil H. V. Hasselt Tom Schaul Georg Ostrovski Will Dabney Dan Horgan Bilal Piot M. G. Azar David Silver OffRL 34 2,234 0 06 Oct 2017
The Uncertainty Bellman Equation and Exploration Brendan O'Donoghue Ian Osband Rémi Munos Volodymyr Mnih 17 183 0 15 Sep 2017
A Brief Survey of Deep Reinforcement Learning Kai Arulkumaran M. Deisenroth Miles Brundage Anil Anthony Bharath OffRL 53 2,775 0 19 Aug 2017
An Information-Theoretic Optimality Principle for Deep Reinforcement Learning Felix Leibfried Jordi Grau-Moya Haitham Bou-Ammar 32 24 0 06 Aug 2017
Interpolated Policy Gradient: Merging On-Policy and Off-Policy Gradient Estimation for Deep Reinforcement Learning S. Gu Timothy Lillicrap Zoubin Ghahramani Richard Turner Bernhard Schölkopf Sergey Levine OffRL 19 164 0 01 Jun 2017
Enhanced Experience Replay Generation for Efficient Reinforcement Learning Vincent Huang Tobias Ley Martha Vlachou-Konchylaki Wenfeng Hu OnRL GAN SyDa 8 9 0 23 May 2017
A unified view of entropy-regularized Markov decision processes Gergely Neu Anders Jonsson Vicencc Gómez 45 253 0 22 May 2017
Equivalence Between Policy Gradients and Soft Q-Learning John Schulman Xi Chen Pieter Abbeel OffRL 29 339 0 21 Apr 2017
Bridging the Gap Between Value and Policy Based Reinforcement Learning Ofir Nachum Mohammad Norouzi Kelvin Xu Dale Schuurmans 10 465 0 28 Feb 2017
Reinforcement Learning with Deep Energy-Based Policies Tuomas Haarnoja Haoran Tang Pieter Abbeel Sergey Levine 26 1,311 0 27 Feb 2017
Deep Reinforcement Learning: An Overview Yuxi Li OffRL VLM 104 1,503 0 25 Jan 2017