Prioritized Experience Replay

18 November 2015

David Silver

Papers citing "Prioritized Experience Replay"

41 / 1,441 papers shown

Title
A User Simulator for Task-Completion Dialogues Xiujun Li Zachary Chase Lipton Bhuwan Dhingra Lihong Li Jianfeng Gao Yun-Nung Chen OffRL 22 164 0 17 Dec 2016
Deep Reinforcement Learning with Successor Features for Navigation across Similar Environments Jingwei Zhang Jost Tobias Springenberg Joschka Boedecker Wolfram Burgard 22 294 0 16 Dec 2016
Transfer Learning Across Patient Variations with Hidden Parameter Markov Decision Processes Taylor W. Killian George Konidaris Finale Doshi-Velez OOD 16 8 0 01 Dec 2016
Playing Doom with SLAM-Augmented Deep Reinforcement Learning Shehroze Bhatti Alban Desmaison O. Mikšík Nantas Nardelli N. Siddharth Philip Torr OffRL 35 69 0 01 Dec 2016
Improving Policy Gradient by Exploring Under-appreciated Rewards Ofir Nachum Mohammad Norouzi Dale Schuurmans 41 43 0 28 Nov 2016
Nonparametric General Reinforcement Learning Jan Leike OffRL 41 26 0 28 Nov 2016
Reinforcement Learning through Asynchronous Advantage Actor-Critic on a GPU Mohammad Babaeizadeh I. Frosio Stephen Tyree Jason Clemons Jan Kautz OffRL 26 258 0 18 Nov 2016
Reinforcement Learning with Unsupervised Auxiliary Tasks Max Jaderberg Volodymyr Mnih Wojciech M. Czarnecki Tom Schaul Joel Z. Leibo David Silver Koray Kavukcuoglu SSL 13 1,222 0 16 Nov 2016
Sequence Tutor: Conservative Fine-Tuning of Sequence Generation Models with KL-control Natasha Jaques S. Gu Dzmitry Bahdanau José Miguel Hernández-Lobato Richard Turner Douglas Eck 38 169 0 09 Nov 2016
Averaged-DQN: Variance Reduction and Stabilization for Deep Reinforcement Learning Oron Anschel Nir Baram N. Shimkin 19 314 0 07 Nov 2016
Combining policy gradient and Q-learning Brendan O'Donoghue Rémi Munos Koray Kavukcuoglu Volodymyr Mnih OffRL OnRL 30 139 0 05 Nov 2016
Learning to Play in a Day: Faster Deep Reinforcement Learning by Optimality Tightening Frank S. He Yang Liu Alex Schwing Jian-wei Peng 24 84 0 05 Nov 2016
Sample Efficient Actor-Critic with Experience Replay Ziyun Wang V. Bapst N. Heess Volodymyr Mnih Rémi Munos Koray Kavukcuoglu Nando de Freitas 33 755 0 03 Nov 2016
Towards Lifelong Self-Supervision: A Deep Learning Direction for Robotics J. M. Wong 27 11 0 01 Nov 2016
Neural Symbolic Machines: Learning Semantic Parsers on Freebase with Weak Supervision Chen Liang Jonathan Berant Quoc V. Le Kenneth D. Forbus Ni Lao NAI 55 404 0 31 Oct 2016
Online Contrastive Divergence with Generative Replay: Experience Replay without Storing Data Decebal Constantin Mocanu M. T. Vega Eric Eaton Peter Stone A. Liotta OffRL 21 26 0 18 Oct 2016
Multi-Objective Deep Reinforcement Learning Hossam Mossalam Yannis Assael D. Roijers Shimon Whiteson 35 151 0 09 Oct 2016
Supervision via Competition: Robot Adversaries for Learning Tasks Lerrel Pinto James Davidson Abhinav Gupta SSL 34 82 0 05 Oct 2016
Playing FPS Games with Deep Reinforcement Learning Guillaume Lample Devendra Singh Chaplot OffRL EgoV 39 583 0 18 Sep 2016
BBQ-Networks: Efficient Exploration in Deep Reinforcement Learning for Task-Oriented Dialogue Systems Zachary Chase Lipton Xiujun Li Jianfeng Gao Lihong Li Faisal Ahmed Li Deng 40 6 0 17 Aug 2016
Playing Atari Games with Deep Reinforcement Learning and Human Checkpoint Replay Ionel-Alexandru Hosu Traian Rebedea 29 97 0 18 Jul 2016
Deep Reinforcement Learning With Macro-Actions Ishan Durugkar Clemens Rosenbaum S. Dernbach Sridhar Mahadevan 17 23 0 15 Jun 2016
Model-Free Episodic Control Charles Blundell Benigno Uria Alexander Pritzel Yazhe Li Avraham Ruderman Joel Z. Leibo Jack W. Rae Daan Wierstra Demis Hassabis OffRL BDL 24 248 0 14 Jun 2016
Safe and Efficient Off-Policy Reinforcement Learning Rémi Munos T. Stepleton Anna Harutyunyan Marc G. Bellemare OffRL 69 609 0 08 Jun 2016
Towards End-to-End Learning for Dialog State Tracking and Management using Deep Reinforcement Learning Tiancheng Zhao M. Eskénazi 26 264 0 08 Jun 2016
Deep Successor Reinforcement Learning Tejas D. Kulkarni A. Saeedi Simanta Gautam S. Gershman 30 208 0 08 Jun 2016
Unifying Count-Based Exploration and Intrinsic Motivation Marc G. Bellemare S. Srinivasan Georg Ostrovski Tom Schaul D. Saxton Rémi Munos 55 1,456 0 06 Jun 2016
Dynamic Frame skip Deep Q Network A. Srinivas Sahil Sharma Balaraman Ravindran 14 23 0 17 May 2016
A Deep Hierarchical Approach to Lifelong Learning in Minecraft Chen Tessler Shahar Givony Tom Zahavy D. Mankowitz Shie Mannor CLL 30 377 0 25 Apr 2016
Hierarchical Deep Reinforcement Learning: Integrating Temporal Abstraction and Intrinsic Motivation Tejas D. Kulkarni Karthik Narasimhan A. Saeedi J. Tenenbaum 25 1,127 0 20 Apr 2016
Continuous Deep Q-Learning with Model-based Acceleration S. Gu Timothy Lillicrap Ilya Sutskever Sergey Levine 42 1,008 0 02 Mar 2016
Learning values across many orders of magnitude H. V. Hasselt A. Guez Matteo Hessel Volodymyr Mnih David Silver 22 169 0 24 Feb 2016
Deep Exploration via Bootstrapped DQN Ian Osband Charles Blundell Alexander Pritzel Benjamin Van Roy 29 1,294 0 15 Feb 2016
Learning to Communicate to Solve Riddles with Deep Distributed Recurrent Q-Networks Jakob N. Foerster Yannis Assael Nando de Freitas Shimon Whiteson 21 147 0 08 Feb 2016
Graying the black box: Understanding DQNs Tom Zahavy Nir Ben-Zrihem Shie Mannor 29 262 0 08 Feb 2016
Ensemble Robustness and Generalization of Stochastic Deep Learning Algorithms Tom Zahavy Bingyi Kang Alex Sivak Jiashi Feng Huan Xu Shie Mannor OOD AAML 39 12 0 07 Feb 2016
Asynchronous Methods for Deep Reinforcement Learning Volodymyr Mnih Adria Puigdomenech Badia M. Berk Mirza Alex Graves Timothy Lillicrap Tim Harley David Silver Koray Kavukcuoglu 49 8,767 0 04 Feb 2016
How to Discount Deep Reinforcement Learning: Towards New Dynamic Strategies Vincent François-Lavet R. Fonteneau D. Ernst 19 110 0 07 Dec 2015
Multiagent Cooperation and Competition with Deep Reinforcement Learning Ardi Tampuu Tambet Matiisen Dorian Kodelja Ilya Kuzovkin Kristjan Korjus Juhan Aru Jaan Aru Raul Vicente 62 859 0 27 Nov 2015
Dueling Network Architectures for Deep Reinforcement Learning Ziyun Wang Tom Schaul Matteo Hessel H. V. Hasselt Marc Lanctot Nando de Freitas OffRL 29 3,727 0 20 Nov 2015
Online Batch Selection for Faster Training of Neural Networks I. Loshchilov Frank Hutter ODL 44 298 0 19 Nov 2015