Off-Policy Deep Reinforcement Learning without Exploration

7 December 2018

Papers citing "Off-Policy Deep Reinforcement Learning without Exploration"

50 / 339 papers shown

Title
Offline Reinforcement Learning for Visual Navigation Dhruv Shah Arjun Bhorkar Hrish Leen Ilya Kostrikov Nicholas Rhinehart Sergey Levine OffRL 24 29 0 16 Dec 2022
Behavior Estimation from Multi-Source Data for Offline Reinforcement Learning Guoxi Zhang H. Kashima OffRL 29 2 0 29 Nov 2022
Is Conditional Generative Modeling all you need for Decision-Making? Anurag Ajay Yilun Du Abhi Gupta J. Tenenbaum Tommi Jaakkola Pulkit Agrawal DiffM 47 360 0 28 Nov 2022
Causal Deep Reinforcement Learning Using Observational Data Wenxuan Zhu Chao Yu Qiaosheng Zhang CML OffRL 26 5 0 28 Nov 2022
Domain Generalization for Robust Model-Based Offline Reinforcement Learning Alan Clark Shoaib Ahmed Siddiqui Robert Kirk Usman Anwar Stephen Chung David M. Krueger OOD OffRL 27 0 0 27 Nov 2022
Multi-Environment Pretraining Enables Transfer to Action Limited Datasets David Venuto Sherry Yang Pieter Abbeel Doina Precup Igor Mordatch Ofir Nachum OffRL 25 5 0 23 Nov 2022
Improving TD3-BC: Relaxed Policy Constraint for Offline Learning and Stable Online Fine-Tuning Alex Beeson Giovanni Montana OffRL OnRL 20 22 0 21 Nov 2022
Model-based Trajectory Stitching for Improved Offline Reinforcement Learning Charles A. Hepburn Giovanni Montana OffRL 29 13 0 21 Nov 2022
Let Offline RL Flow: Training Conservative Agents in the Latent Space of Normalizing Flows D. Akimov Vladislav Kurenkov Alexander Nikulin Denis Tarasov Sergey Kolesnikov OffRL 19 9 0 20 Nov 2022
Q-Ensemble for Offline RL: Don't Scale the Ensemble, Scale the Batch Size Alexander Nikulin Vladislav Kurenkov Denis Tarasov Dmitry Akimov Sergey Kolesnikov OffRL 33 14 0 20 Nov 2022
Learning Reward Functions for Robotic Manipulation by Observing Humans Minttu Alakuijala Gabriel Dulac-Arnold Julien Mairal Jean Ponce Cordelia Schmid OffRL 37 26 0 16 Nov 2022
Offline Reinforcement Learning with Adaptive Behavior Regularization Yunfan Zhou Xijun Li Qingyu Qu OffRL 24 1 0 15 Nov 2022
Contextual Transformer for Offline Meta Reinforcement Learning Runji Lin Ye Li Xidong Feng Zhaowei Zhang Xian Hong Wu Fung Haifeng Zhang Jun Wang Yali Du Yaodong Yang OffRL 23 6 0 15 Nov 2022
CACTO: Continuous Actor-Critic with Trajectory Optimization -- Towards global optimality Gianluigi Grandesso Elisa Alboni G. P. R. Papini Patrick M. Wensing Andrea Del Prete 22 15 0 12 Nov 2022
Spatio-temporal Incentives Optimization for Ride-hailing Services with Offline Deep Reinforcement Learning Yanqiu Wu Qingyang Li Zhiwei Qin OffRL 12 3 0 06 Nov 2022
Wall Street Tree Search: Risk-Aware Planning for Offline Reinforcement Learning D. Elbaz Gal Novik Oren Salzman OffRL 27 0 0 06 Nov 2022
Contrastive Value Learning: Implicit Models for Simple Offline RL Bogdan Mazoure Benjamin Eysenbach Ofir Nachum Jonathan Tompson SSL OffRL 38 7 0 03 Nov 2022
Learning on the Job: Self-Rewarding Offline-to-Online Finetuning for Industrial Insertion of Novel Connectors from Vision Ashvin Nair Brian Zhu Gokul Narayanan Eugen Solowjow Sergey Levine OffRL OnRL 28 14 0 27 Oct 2022
Adaptive Behavior Cloning Regularization for Stable Offline-to-Online Reinforcement Learning Yi Zhao Rinu Boney Alexander Ilin Arno Solin Joni Pajarinen OffRL OnRL 26 39 0 25 Oct 2022
Dichotomy of Control: Separating What You Can Control from What You Cannot Mengjiao Yang Dale Schuurmans Pieter Abbeel Ofir Nachum OffRL 25 42 0 24 Oct 2022
MoCoDA: Model-based Counterfactual Data Augmentation Silviu Pitis Elliot Creager Ajay Mandlekar Animesh Garg OffRL 48 33 0 20 Oct 2022
The Pump Scheduling Problem: A Real-World Scenario for Reinforcement Learning Henrique Donancio L. Vercouter H. Roclawski AI4CE 18 1 0 20 Oct 2022
Robust Offline Reinforcement Learning with Gradient Penalty and Constraint Relaxation Chengqian Gao Kelvin Xu Liu Liu Deheng Ye P. Zhao Zhiqiang Xu OffRL 39 2 0 19 Oct 2022
Boosting Offline Reinforcement Learning via Data Rebalancing Yang Yue Bingyi Kang Xiao Ma Zhongwen Xu Gao Huang Shuicheng Yan OffRL 23 22 0 17 Oct 2022
CUP: Critic-Guided Policy Reuse Jin Zhang Siyuan Li Chongjie Zhang 29 8 0 15 Oct 2022
Learning Skills from Demonstrations: A Trend from Motion Primitives to Experience Abstraction Mehrdad Tavassoli S. Katyara Maria Pozzi Nikhil Deshpande D. Caldwell D. Prattichizzo 25 11 0 14 Oct 2022
Sustainable Online Reinforcement Learning for Auto-bidding Zhiyu Mou Yusen Huo Rongquan Bai Mingzhou Xie Chuan Yu Jian Xu Bo Zheng OffRL OnRL 34 15 0 13 Oct 2022
Understanding or Manipulation: Rethinking Online Performance Gains of Modern Recommender Systems Zhengbang Zhu Rongjun Qin Junjie Huang Xinyi Dai Yang Yu Yong Yu Weinan Zhang 44 2 0 11 Oct 2022
BAFFLE: Hiding Backdoors in Offline Reinforcement Learning Datasets Chen Gong Zhou Yang Yunru Bai Junda He Jieke Shi ... Arunesh Sinha Bowen Xu Xinwen Hou David Lo Guoliang Fan AAML OffRL 21 7 0 07 Oct 2022
B2RL: An open-source Dataset for Building Batch Reinforcement Learning Hsin-Yu Liu Xiaohan Fu Bharathan Balaji Rajesh E. Gupta Dezhi Hong OffRL 16 4 0 30 Sep 2022
S2P: State-conditioned Image Synthesis for Data Augmentation in Offline Reinforcement Learning Daesol Cho D. Shim H. J. Kim OffRL 42 11 0 30 Sep 2022
Latent Plans for Task-Agnostic Offline Reinforcement Learning Erick Rosete-Beas Oier Mees Gabriel Kalweit Joschka Boedecker Wolfram Burgard OffRL 33 81 0 19 Sep 2022
Age of Semantics in Cooperative Communications: To Expedite Simulation Towards Real via Offline Reinforcement Learning Xianfu Chen Zhifeng Zhao S. Mao Celimuge Wu Honggang Zhang M. Bennis OffRL 23 3 0 19 Sep 2022
Distributionally Robust Offline Reinforcement Learning with Linear Function Approximation Xiaoteng Ma Zhipeng Liang Jose H. Blanchet MingWen Liu Li Xia Jiheng Zhang Qianchuan Zhao Zhengyuan Zhou OOD OffRL 41 22 0 14 Sep 2022
Statistical Estimation of Confounded Linear MDPs: An Instrumental Variable Approach Miao Lu Wenhao Yang Liangyu Zhang Zhihua Zhang OffRL 34 1 0 12 Sep 2022
Task-Agnostic Learning to Accomplish New Tasks Xianqi Zhang Xingtao Wang Xu Liu Wenrui Wang Xiaopeng Fan Debin Zhao OffRL 88 0 0 09 Sep 2022
Dialogue Evaluation with Offline Reinforcement Learning Nurul Lubis Christian Geishauser Hsien-Chin Lin Carel van Niekerk Michael Heck Shutong Feng Milica Gavsić OffRL 19 4 0 02 Sep 2022
Goal-Conditioned Q-Learning as Knowledge Distillation Alexander Levine S. Feizi OffRL 22 2 0 28 Aug 2022
SupervisorBot: NLP-Annotated Real-Time Recommendations of Psychotherapy Treatment Strategies with Deep Reinforcement Learning Baihan Lin Guillermo Cecchi Djallel Bouneffouf OffRL 29 12 0 27 Aug 2022
Multi-Task Fusion via Reinforcement Learning for Long-Term User Satisfaction in Recommender Systems Qihua Zhang Junning Liu Yuzhuo Dai Yiyan Qi Yifan Yuan Kunlun Zheng Fan Huang Xianfeng Tan OffRL 24 50 0 09 Aug 2022
Reinforcement Learning For Survival, A Clinically Motivated Method For Critically Ill Patients Thesath Nanayakkara OOD OffRL 16 0 0 17 Jul 2022
Making Linear MDPs Practical via Contrastive Representation Learning Tianjun Zhang Tongzheng Ren Mengjiao Yang Joseph E. Gonzalez Dale Schuurmans Bo Dai 25 44 0 14 Jul 2022
Hindsight Learning for MDPs with Exogenous Inputs Sean R. Sinclair Felipe Vieira Frujeri Ching-An Cheng Luke Marshall Hugo Barbalho Jingling Li Jennifer Neville Ishai Menache Adith Swaminathan 18 22 0 13 Jul 2022
Don't Start From Scratch: Leveraging Prior Data to Automate Robotic Reinforcement Learning Homer Walke Jonathan Yang Albert Yu Aviral Kumar Jedrzej Orbik Avi Singh Sergey Levine OffRL OnRL 27 32 0 11 Jul 2022
Multi-objective Optimization of Notifications Using Offline Reinforcement Learning Prakruthi Prabhakar Yiping Yuan Guangyu Yang Wensheng Sun A. Muralidharan OffRL 28 6 0 07 Jul 2022
Offline RL Policies Should be Trained to be Adaptive Dibya Ghosh Anurag Ajay Pulkit Agrawal Sergey Levine OffRL 35 45 0 05 Jul 2022
Offline Policy Optimization with Eligible Actions Yao Liu Yannis Flet-Berliac Emma Brunskill OffRL 25 5 0 01 Jul 2022
Watch and Match: Supercharging Imitation with Regularized Optimal Transport Siddhant Haldar Vaibhav Mathur Denis Yarats Lerrel Pinto 48 62 0 30 Jun 2022
A Survey on Model-based Reinforcement Learning Fan Luo Tian Xu Hang Lai Xiong-Hui Chen Weinan Zhang Yang Yu OffRL LRM 50 101 0 19 Jun 2022
SMPL: Simulated Industrial Manufacturing and Process Control Learning Environments Mohan Zhang Xiaozhou Wang Benjamin Decardi-Nelson Bo Song A. Zhang ... Jiayi Cheng Xiaohong Liu DengDeng Yu Matthew Poon Animesh Garg 13 4 0 17 Jun 2022