Safe and Efficient Off-Policy Reinforcement Learning

8 June 2016

Papers citing "Safe and Efficient Off-Policy Reinforcement Learning"

50 / 155 papers shown

Title
Self-Consistent Models and Values Roy Miles Kate Baumli Zita Marinho Angelos Filos Matteo Hessel Hado van Hasselt David Silver 38 8 0 25 Oct 2021
Variance Reduction based Experience Replay for Policy Optimization Hua Zheng Wei Xie M. Feng OffRL 41 2 0 17 Oct 2021
Evaluating model-based planning and planner amortization for continuous control Arunkumar Byravan Leonard Hasenclever Piotr Trochim M. Berk Mirza Alessandro Davide Ialongo ... Jost Tobias Springenberg A. Abdolmaleki N. Heess J. Merel Martin Riedmiller 55 17 0 07 Oct 2021
Mastering Visual Continuous Control: Improved Data-Augmented Reinforcement Learning Denis Yarats Rob Fergus A. Lazaric Lerrel Pinto OffRL 36 338 0 20 Jul 2021
Improve Agents without Retraining: Parallel Tree Search with Off-Policy Correction Assaf Hallak Gal Dalal Steven Dalton I. Frosio Shie Mannor Gal Chechik OffRL OnRL 35 9 0 04 Jul 2021
Supervised Off-Policy Ranking Yue Jin Yue Zhang Tao Qin Xudong Zhang Jian Yuan Houqiang Li Tie-Yan Liu OffRL 34 5 0 03 Jul 2021
Convergent and Efficient Deep Q Network Algorithm Zhikang T. Wang Masahito Ueda 27 12 0 29 Jun 2021
On component interactions in two-stage recommender systems Jiri Hron K. Krauth Michael I. Jordan Niki Kilbertus CML LRM 42 31 0 28 Jun 2021
Scientific multi-agent reinforcement learning for wall-models of turbulent flows H. J. Bae Petros Koumoutsakos AI4CE 24 131 0 21 Jun 2021
Offline RL Without Off-Policy Evaluation David Brandfonbrener William F. Whitney Rajesh Ranganath Joan Bruna OffRL 44 162 0 16 Jun 2021
An Empirical Comparison of Off-policy Prediction Learning Algorithms on the Collision Task Sina Ghiassian R. Sutton AAML OffRL 19 5 0 02 Jun 2021
An Entropy Regularization Free Mechanism for Policy-based Reinforcement Learning Changnan Xiao Haosen Shi Jiajun Fan Shihong Deng 26 5 0 01 Jun 2021
Finite-Sample Analysis of Off-Policy Natural Actor-Critic with Linear Function Approximation Zaiwei Chen S. Khodadadian S. T. Maguluri OffRL 68 29 0 26 May 2021
From Motor Control to Team Play in Simulated Humanoid Football Siqi Liu Guy Lever Zhe Wang J. Merel S. M. Ali Eslami ... Tuomas Haarnoja Brendan D. Tracey K. Tuyls T. Graepel N. Heess 31 130 0 25 May 2021
Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning Yue Wu Shuangfei Zhai Nitish Srivastava J. Susskind Jian Zhang Ruslan Salakhutdinov Hanlin Goh EDL OffRL OnRL 23 184 0 17 May 2021
Benchmarks for Deep Off-Policy Evaluation Justin Fu Mohammad Norouzi Ofir Nachum George Tucker Ziyun Wang ... Yutian Chen Aviral Kumar Cosmin Paduraru Sergey Levine T. Paine ELM OffRL 35 100 0 30 Mar 2021
Beyond Fine-Tuning: Transferring Behavior in Reinforcement Learning Victor Campos Pablo Sprechmann Steven Hansen André Barreto Steven Kapturowski Alex Vitvitskyi Adria Puigdomenech Badia Charles Blundell OffRL OnRL 46 25 0 24 Feb 2021
Finite-Sample Analysis of Off-Policy Natural Actor-Critic Algorithm S. Khodadadian Zaiwei Chen S. T. Maguluri CML OffRL 74 26 0 18 Feb 2021
A Lyapunov Theory for Finite-Sample Guarantees of Asynchronous Q-Learning and TD-Learning Variants Zaiwei Chen S. T. Maguluri Sanjay Shakkottai Karthikeyan Shanmugam OffRL 105 54 0 02 Feb 2021
A Survey on Deep Reinforcement Learning for Audio-Based Applications S. Latif Heriberto Cuayáhuitl Farrukh Pervez Fahad Shamshad Hafiz Shehbaz Ali Min Zhang OffRL 60 73 0 01 Jan 2021
Data Boost: Text Data Augmentation Through Reinforcement Learning Guided Conditional Generation Ruibo Liu Guangxuan Xu Chenyan Jia Weicheng Ma Lili Wang Soroush Vosoughi 23 107 0 05 Dec 2020
Behavior Priors for Efficient Reinforcement Learning Dhruva Tirumala Alexandre Galashov Hyeonwoo Noh Leonard Hasenclever Razvan Pascanu ... Guillaume Desjardins Wojciech M. Czarnecki Arun Ahuja Yee Whye Teh N. Heess 42 39 0 27 Oct 2020
Human-centric Dialog Training via Offline Reinforcement Learning Natasha Jaques J. Shen Asma Ghandeharioun Craig Ferguson Àgata Lapedriza Noah J. Jones S. Gu Rosalind W. Picard OffRL 40 93 0 12 Oct 2020
Reinforcement Learning with Random Delays Simon Ramstedt Yann Bouteiller Giovanni Beltrame C. Pal Jonathan Binas 132 59 0 06 Oct 2020
Off-Policy Multi-Agent Decomposed Policy Gradients Yihan Wang Beining Han Tonghan Wang Heng Dong Chongjie Zhang 35 175 0 24 Jul 2020
Hyperparameter Selection for Offline Reinforcement Learning T. Paine Cosmin Paduraru Andrea Michi Çağlar Gülçehre Konrad Zolna Alexander Novikov Ziyun Wang Nando de Freitas GP OffRL 49 146 0 17 Jul 2020
Revisiting Fundamentals of Experience Replay W. Fedus Prajit Ramachandran Rishabh Agarwal Yoshua Bengio Hugo Larochelle Mark Rowland Will Dabney KELM OffRL 30 235 0 13 Jul 2020
Counterfactual Data Augmentation using Locally Factored Dynamics Silviu Pitis Elliot Creager Animesh Garg BDL OffRL 28 87 0 06 Jul 2020
A Unifying Framework for Reinforcement Learning and Planning Thomas M. Moerland Joost Broekens Aske Plaat Catholijn M. Jonker OffRL 36 9 0 26 Jun 2020
Self-Imitation Learning via Generalized Lower Bound Q-learning Yunhao Tang SSL 33 24 0 12 Jun 2020
Self-Supervised Reinforcement Learning for Recommender Systems Xin Xin Alexandros Karatzoglou Ioannis Arapakis J. Jose SSL OffRL 32 198 0 10 Jun 2020
Stable and Efficient Policy Evaluation Daoming Lyu Bo Liu M. Geist Wen Dong S. Biaz Qi Wang OffRL 11 7 0 06 Jun 2020
A Distributional View on Multi-Objective Policy Optimization A. Abdolmaleki Sandy H. Huang Leonard Hasenclever Michael Neunert H. F. Song Martina Zambelli M. Martins N. Heess R. Hadsell Martin Riedmiller 26 74 0 15 May 2020
F2A2: Flexible Fully-decentralized Approximate Actor-critic for Cooperative Multi-agent Reinforcement Learning Wenhao Li Bo Jin Xiangfeng Wang Junchi Yan H. Zha 25 21 0 17 Apr 2020
Leverage the Average: an Analysis of KL Regularization in RL Nino Vieillard Tadashi Kozuno B. Scherrer Olivier Pietquin Rémi Munos M. Geist 27 43 0 31 Mar 2020
Agent57: Outperforming the Atari Human Benchmark Adria Puigdomenech Badia Bilal Piot Steven Kapturowski Pablo Sprechmann Alex Vitvitskyi Daniel Guo Charles Blundell OffRL 29 510 0 30 Mar 2020
ACNMP: Skill Transfer and Task Extrapolation through Learning from Demonstration and Reinforcement Learning via Representation Sharing M. Akbulut Erhan Öztop M. Yunus Seker Y. Nagai Ahmet E. Tekden Emre Ugur 21 2 0 25 Mar 2020
Black-box Off-policy Estimation for Infinite-Horizon Reinforcement Learning Ali Mousavi Lihong Li Qiang Liu Denny Zhou OffRL 27 32 0 24 Mar 2020
Policy Evaluation Networks J. Harb Tom Schaul Doina Precup Pierre-Luc Bacon OffRL 20 36 0 26 Feb 2020
Universal Value Density Estimation for Imitation Learning and Goal-Conditioned Reinforcement Learning Yannick Schroecker Charles Isbell OffRL 36 12 0 15 Feb 2020
Causally Correct Partial Models for Reinforcement Learning Danilo Jimenez Rezende Ivo Danihelka George Papamakarios Nan Rosemary Ke Ray Jiang ... Jane X. Wang Jovana Mitrović F. Besse Ioannis Antonoglou Lars Buesing AI4TS 29 32 0 07 Feb 2020
Identifying Distinct, Effective Treatments for Acute Hypotension with SODA-RL: Safely Optimized Diverse Accurate Reinforcement Learning Joseph D. Futoma M. A. Masood Finale Doshi-Velez OffRL OOD 24 11 0 09 Jan 2020
Continuous-Discrete Reinforcement Learning for Hybrid Control in Robotics Michael Neunert A. Abdolmaleki Markus Wulfmeier Thomas Lampe Jost Tobias Springenberg Roland Hafner Francesco Romano J. Buchli N. Heess Martin Riedmiller 21 91 0 02 Jan 2020
A Survey of Deep Reinforcement Learning in Video Games Kun Shao Zhentao Tang Yuanheng Zhu Nannan Li Dongbin Zhao OffRL AI4TS 43 188 0 23 Dec 2019
Direct and indirect reinforcement learning Yang Guan Shengbo Eben Li Jingliang Duan Jie Li Yangang Ren Qi Sun B. Cheng OffRL 38 34 0 23 Dec 2019
Empirical Study of Off-Policy Policy Evaluation for Reinforcement Learning Cameron Voloshin Hoang Minh Le Nan Jiang Yisong Yue OffRL 32 152 0 15 Nov 2019
Adaptive Trade-Offs in Off-Policy Learning Mark Rowland Will Dabney Rémi Munos OffRL 25 22 0 16 Oct 2019
Soft-Label Dataset Distillation and Text Dataset Distillation Ilia Sucholutsky Matthias Schonlau DD 33 132 0 06 Oct 2019
Advantage-Weighted Regression: Simple and Scalable Off-Policy Reinforcement Learning Xue Bin Peng Aviral Kumar Grace Zhang Sergey Levine OffRL 54 541 0 01 Oct 2019
Off-Policy Actor-Critic with Shared Experience Replay Simon Schmitt Matteo Hessel Karen Simonyan OffRL 27 68 0 25 Sep 2019