Off-Policy Deep Reinforcement Learning without Exploration

7 December 2018

Papers citing "Off-Policy Deep Reinforcement Learning without Exploration"

50 / 355 papers shown

Title
Foresee then Evaluate: Decomposing Value Estimation with Latent Future Prediction Hongyao Tang Jianye Hao Guangyong Chen Pengfei Chen Chong Chen Yaodong Yang Lu Zhang Wulong Liu Zhaopeng Meng OffRL 35 4 0 03 Mar 2021
Offline Reinforcement Learning with Pseudometric Learning Robert Dadashi Shideh Rezaeifar Nino Vieillard Léonard Hussenot Olivier Pietquin M. Geist OffRL 33 40 0 02 Mar 2021
DeepThermal: Combustion Optimization for Thermal Power Generating Units Using Offline Reinforcement Learning Xianyuan Zhan Haoran Xu Yueying Zhang Xiangyu Zhu Honglei Yin Yu Zheng OffRL AI4CE 40 67 0 23 Feb 2021
COMBO: Conservative Offline Model-Based Policy Optimization Tianhe Yu Aviral Kumar Rafael Rafailov Aravind Rajeswaran Sergey Levine Chelsea Finn OffRL 219 415 0 16 Feb 2021
PerSim: Data-Efficient Offline Reinforcement Learning with Heterogeneous Agents via Personalized Simulators Anish Agarwal Abdullah Alomar Varkey Alumootil Devavrat Shah Dennis Shen Zhi Xu Cindy Yang OffRL 18 18 0 13 Feb 2021
How to Train Your Robot with Deep Reinforcement Learning; Lessons We've Learned Julian Ibarz Jie Tan Chelsea Finn Mrinal Kalakrishnan P. Pastor Sergey Levine OffRL 16 516 0 04 Feb 2021
NeoRL: A Near Real-World Benchmark for Offline Reinforcement Learning Rongjun Qin Songyi Gao Xingyuan Zhang Zhen Xu Shengkai Huang Zewen Li Weinan Zhang Yang Yu OffRL 140 6 0 01 Feb 2021
Is Pessimism Provably Efficient for Offline RL? Ying Jin Zhuoran Yang Zhaoran Wang OffRL 27 346 0 30 Dec 2020
POPO: Pessimistic Offline Policy Optimization Qiang He Xinwen Hou OffRL 35 10 0 26 Dec 2020
Social NCE: Contrastive Learning of Socially-aware Motion Representations Yuejiang Liu Qi Yan Alexandre Alahi 29 101 0 21 Dec 2020
Sample-Efficient Reinforcement Learning via Counterfactual-Based Data Augmentation Chaochao Lu Erdun Gao Ke Wang José Miguel Hernández-Lobato Kun Zhang Bernhard Schölkopf CML OOD OffRL 26 56 0 16 Dec 2020
Semi-supervised reward learning for offline reinforcement learning Ksenia Konyushkova Konrad Zolna Y. Aytar Alexander Novikov Scott E. Reed Serkan Cabi Nando de Freitas SSL OffRL 68 23 0 12 Dec 2020
Offline Learning from Demonstrations and Unlabeled Experience Konrad Zolna Alexander Novikov Ksenia Konyushkova Çağlar Gülçehre Ziyun Wang Y. Aytar Misha Denil Nando de Freitas Scott E. Reed SSL OffRL 32 66 0 27 Nov 2020
Multi-agent Reinforcement Learning Accelerated MCMC on Multiscale Inversion Problem Eric T. Chung Y. Efendiev W. Leung Sai-Mang Pun Zecheng Zhang 13 12 0 17 Nov 2020
PLAS: Latent Action Space for Offline Reinforcement Learning Wenxuan Zhou Sujay Bajracharya David Held OffRL 24 156 0 14 Nov 2020
Sim-to-Real Transfer for Vision-and-Language Navigation Peter Anderson Ayush Shrivastava Joanne Truong Arjun Majumdar Devi Parikh Dhruv Batra Stefan Lee LM&Ro 36 106 0 07 Nov 2020
Cooperative Heterogeneous Deep Reinforcement Learning Han Zheng Pengfei Wei Jing Jiang Guodong Long Qinghua Lu Chengqi Zhang 49 12 0 02 Nov 2020
COG: Connecting New Skills to Past Experience with Offline Reinforcement Learning Avi Singh Albert Yu Jonathan Yang Jesse Zhang Aviral Kumar Sergey Levine SSL OffRL OnRL 35 103 0 27 Oct 2020
Behavior Priors for Efficient Reinforcement Learning Dhruva Tirumala Alexandre Galashov Hyeonwoo Noh Leonard Hasenclever Razvan Pascanu ... Guillaume Desjardins Wojciech M. Czarnecki Arun Ahuja Yee Whye Teh N. Heess 37 39 0 27 Oct 2020
OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement Learning Anurag Ajay Aviral Kumar Pulkit Agrawal Sergey Levine Ofir Nachum OffRL OnRL 34 155 0 26 Oct 2020
CoinDICE: Off-Policy Confidence Interval Estimation Bo Dai Ofir Nachum Yinlam Chow Lihong Li Csaba Szepesvári Dale Schuurmans OffRL 27 84 0 22 Oct 2020
Model-based Policy Optimization with Unsupervised Model Adaptation Jian Shen Han Zhao Weinan Zhang Yong Yu 30 27 0 19 Oct 2020
Human-centric Dialog Training via Offline Reinforcement Learning Natasha Jaques J. Shen Asma Ghandeharioun Craig Ferguson Àgata Lapedriza Noah J. Jones S. Gu Rosalind W. Picard OffRL 37 92 0 12 Oct 2020
Online Safety Assurance for Deep Reinforcement Learning Noga H. Rotman Michael Schapira Aviv Tamar OffRL 36 5 0 07 Oct 2020
Learning Arbitrary-Goal Fabric Folding with One Hour of Real Robot Experience Robert Lee Daniel Ward Akansel Cosgun Vibhavari Dasagi Peter Corke Jurgen Leitner SSL 25 66 0 07 Oct 2020
FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance Metric Learning and Behavior Regularization Lanqing Li Rui Yang Dijun Luo OffRL 27 10 0 02 Oct 2020
The Importance of Pessimism in Fixed-Dataset Policy Optimization Jacob Buckman Carles Gelada Marc G. Bellemare OffRL 42 135 0 15 Sep 2020
Learning Off-Policy with Online Planning Harshit S. Sikchi Wenxuan Zhou David Held OffRL 37 45 0 23 Aug 2020
Offline Meta-Reinforcement Learning with Advantage Weighting E. Mitchell Rafael Rafailov Xue Bin Peng Sergey Levine Chelsea Finn OffRL 38 104 0 13 Aug 2020
Learning Power Control from a Fixed Batch of Data M. Khoshkholgh H. Yanikomeroglu OffRL 23 2 0 05 Aug 2020
QPLEX: Duplex Dueling Multi-Agent Q-Learning Jianhao Wang Zhizhou Ren Terry Liu Yang Yu Chongjie Zhang OffRL 51 437 0 03 Aug 2020
Batch Policy Learning in Average Reward Markov Decision Processes Peng Liao Zhengling Qi Runzhe Wan P. Klasnja S. Murphy OffRL 34 81 0 23 Jul 2020
Provably Good Batch Reinforcement Learning Without Great Exploration Yao Liu Adith Swaminathan Alekh Agarwal Emma Brunskill OffRL 19 105 0 16 Jul 2020
Counterfactual Data Augmentation using Locally Factored Dynamics Silviu Pitis Elliot Creager Animesh Garg BDL OffRL 21 85 0 06 Jul 2020
Critic Regularized Regression Ziyun Wang Alexander Novikov Konrad Zolna Jost Tobias Springenberg Scott E. Reed ... Noah Y. Siegel J. Merel Çağlar Gülçehre N. Heess Nando de Freitas OffRL 36 317 0 26 Jun 2020
Learning predictive representations in autonomous driving to improve deep reinforcement learning D. Graves Nhat M. Nguyen Kimia Hassanzadeh Jun Jin SSL 24 12 0 26 Jun 2020
Off-policy Bandits with Deficient Support Noveen Sachdeva Yi-Hsun Su Thorsten Joachims OffRL 22 75 0 16 Jun 2020
AWAC: Accelerating Online Reinforcement Learning with Offline Datasets Ashvin Nair Abhishek Gupta Murtaza Dalal Sergey Levine OffRL OnRL 46 587 0 16 Jun 2020
Non-local Policy Optimization via Diversity-regularized Collaborative Exploration Zhenghao Peng Hao Sun Bolei Zhou 18 18 0 14 Jun 2020
Self-Supervised Reinforcement Learning for Recommender Systems Xin Xin Alexandros Karatzoglou Ioannis Arapakis J. Jose SSL OffRL 29 198 0 10 Jun 2020
Acme: A Research Framework for Distributed Reinforcement Learning Matthew W. Hoffman Bobak Shahriari John Aslanides Gabriel Barth-Maron Nikola Momchev ... Srivatsan Srinivasan A. Cowie Ziyun Wang Bilal Piot Nando de Freitas 65 225 0 01 Jun 2020
Towards Understanding Cooperative Multi-Agent Q-Learning with Value Factorization Jianhao Wang Zhizhou Ren Beining Han Jianing Ye Chongjie Zhang OffRL 25 32 0 31 May 2020
D4RL: Datasets for Deep Data-Driven Reinforcement Learning Justin Fu Aviral Kumar Ofir Nachum George Tucker Sergey Levine GP OffRL 66 1,310 0 15 Apr 2020
An empirical investigation of the challenges of real-world reinforcement learning Gabriel Dulac-Arnold Nir Levine D. Mankowitz Jerry Li Cosmin Paduraru Sven Gowal Todd Hester OffRL 34 120 0 24 Mar 2020
Off-policy Policy Evaluation For Sequential Decisions Under Unobserved Confounding Hongseok Namkoong Ramtin Keramati Steve Yadlowsky Emma Brunskill OffRL 14 63 0 12 Mar 2020
Off-Policy Deep Reinforcement Learning with Analogous Disentangled Exploration Guy Van den Broeck Yitao Liang Mathias Niepert OffRL 14 3 0 25 Feb 2020
Keep Doing What Worked: Behavioral Modelling Priors for Offline Reinforcement Learning Noah Y. Siegel Jost Tobias Springenberg Felix Berkenkamp A. Abdolmaleki Michael Neunert Thomas Lampe Roland Hafner Nicolas Heess Martin Riedmiller OffRL 22 282 0 19 Feb 2020
BRPO: Batch Residual Policy Optimization Kentaro Kanamori Yinlam Chow Takuya Takagi Hiroki Arimura Honglak Lee Ken Kobayashi Craig Boutilier OffRL 139 46 0 08 Feb 2020
Minimax Value Interval for Off-Policy Evaluation and Policy Optimization Nan Jiang Jiawei Huang OffRL 35 17 0 06 Feb 2020
Learning to Reach Goals via Iterated Supervised Learning Dibya Ghosh Abhishek Gupta Ashwin Reddy Justin Fu Coline Devin Benjamin Eysenbach Sergey Levine 24 34 0 12 Dec 2019