Conservative Q-Learning for Offline Reinforcement Learning

8 June 2020

Papers citing "Conservative Q-Learning for Offline Reinforcement Learning"

50 / 393 papers shown

Title
DITTO: Offline Imitation Learning with World Models Branton DeMoss Paul Duckworth Nick Hawes Ingmar Posner Ingmar Posner OffRL 21 18 0 06 Feb 2023
Offline Learning of Closed-Loop Deep Brain Stimulation Controllers for Parkinson Disease Treatment Qitong Gao Stephen L. Schimdt Afsana Chowdhury Guangyu Feng Jennifer J. Peters Katherine Genty W. Grill Dennis A. Turner Miroslav Pajic OffRL 33 11 0 05 Feb 2023
AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners Zhixuan Liang Yao Mu Mingyu Ding Fei Ni Masayoshi Tomizuka Ping Luo 80 99 0 03 Feb 2023
Policy Expansion for Bridging Offline-to-Online Reinforcement Learning Haichao Zhang Weiwen Xu Haonan Yu CLL OffRL OnRL 40 62 0 02 Feb 2023
Anti-Exploration by Random Network Distillation Alexander Nikulin Vladislav Kurenkov Denis Tarasov Sergey Kolesnikov 38 24 0 31 Jan 2023
Learning Vision-based Robotic Manipulation Tasks Sequentially in Offline Reinforcement Learning Settings Sudhir Pratap Yadav R. Nagar S. Shah OffRL 24 3 0 31 Jan 2023
Importance Weighted Actor-Critic for Optimal Conservative Offline Reinforcement Learning Hanlin Zhu Paria Rashidinejad Jiantao Jiao OffRL 38 15 0 30 Jan 2023
Constrained Policy Optimization with Explicit Behavior Density for Offline Reinforcement Learning Jing Zhang Chi Zhang Wenjia Wang Bing-Yi Jing OffRL 32 7 0 28 Jan 2023
Principled Reinforcement Learning with Human Feedback from Pairwise or $K$ -wise Comparisons Banghua Zhu Jiantao Jiao Michael I. Jordan OffRL 39 181 0 26 Jan 2023
Which Experiences Are Influential for Your Agent? Policy Iteration with Turn-over Dropout Takuya Hiraoka Takashi Onishi Yoshimasa Tsuruoka OffRL 26 0 0 26 Jan 2023
A Survey on Transformers in Reinforcement Learning Wenzhe Li Hao Luo Zichuan Lin Chongjie Zhang Zongqing Lu Deheng Ye OffRL MU AI4CE 37 55 0 08 Jan 2023
Benchmarks and Algorithms for Offline Preference-Based Reward Learning Daniel Shin Anca Dragan Daniel S. Brown OffRL 17 53 0 03 Jan 2023
Offline Policy Optimization in RL with Variance Regularizaton Riashat Islam Samarth Sinha Homanga Bharadhwaj Samin Yeasar Arnob Zhuoran Yang Animesh Garg Zhaoran Wang Lihong Li Doina Precup OffRL 26 0 0 29 Dec 2022
Imitation Is Not Enough: Robustifying Imitation with Reinforcement Learning for Challenging Driving Scenarios Yiren Lu Justin Fu George Tucker Xinlei Pan Eli Bronstein ... Brandyn White Aleksandra Faust Shimon Whiteson Drago Anguelov Sergey Levine OffRL 28 92 0 21 Dec 2022
Offline Reinforcement Learning for Visual Navigation Dhruv Shah Arjun Bhorkar Hrish Leen Ilya Kostrikov Nicholas Rhinehart Sergey Levine OffRL 24 29 0 16 Dec 2022
Learning Robotic Navigation from Experience: Principles, Methods, and Recent Results Sergey Levine Dhruv Shah SSL 37 21 0 13 Dec 2022
VideoDex: Learning Dexterity from Internet Videos Kenneth Shaw Shikhar Bahl Deepak Pathak 30 89 0 08 Dec 2022
Behavior Estimation from Multi-Source Data for Offline Reinforcement Learning Guoxi Zhang H. Kashima OffRL 29 2 0 29 Nov 2022
Is Conditional Generative Modeling all you need for Decision-Making? Anurag Ajay Yilun Du Abhi Gupta J. Tenenbaum Tommi Jaakkola Pulkit Agrawal DiffM 47 360 0 28 Nov 2022
Causal Deep Reinforcement Learning Using Observational Data Wenxuan Zhu Chao Yu Qiaosheng Zhang CML OffRL 26 5 0 28 Nov 2022
Improved Representation of Asymmetrical Distances with Interval Quasimetric Embeddings Tongzhou Wang Phillip Isola 27 7 0 28 Nov 2022
Multi-Environment Pretraining Enables Transfer to Action Limited Datasets David Venuto Sherry Yang Pieter Abbeel Doina Precup Igor Mordatch Ofir Nachum OffRL 25 5 0 23 Nov 2022
Improving TD3-BC: Relaxed Policy Constraint for Offline Learning and Stable Online Fine-Tuning Alex Beeson Giovanni Montana OffRL OnRL 20 22 0 21 Nov 2022
Model-based Trajectory Stitching for Improved Offline Reinforcement Learning Charles A. Hepburn Giovanni Montana OffRL 29 13 0 21 Nov 2022
Let Offline RL Flow: Training Conservative Agents in the Latent Space of Normalizing Flows D. Akimov Vladislav Kurenkov Alexander Nikulin Denis Tarasov Sergey Kolesnikov OffRL 19 9 0 20 Nov 2022
Q-Ensemble for Offline RL: Don't Scale the Ensemble, Scale the Batch Size Alexander Nikulin Vladislav Kurenkov Denis Tarasov Dmitry Akimov Sergey Kolesnikov OffRL 33 14 0 20 Nov 2022
Reward Gaming in Conditional Text Generation Richard Yuanzhe Pang Vishakh Padmakumar Thibault Sellam Ankur P. Parikh He He 35 24 0 16 Nov 2022
Offline Reinforcement Learning with Adaptive Behavior Regularization Yunfan Zhou Xijun Li Qingyu Qu OffRL 24 1 0 15 Nov 2022
Contextual Transformer for Offline Meta Reinforcement Learning Runji Lin Ye Li Xidong Feng Zhaowei Zhang Xian Hong Wu Fung Haifeng Zhang Jun Wang Yali Du Yaodong Yang OffRL 23 6 0 15 Nov 2022
Control Transformer: Robot Navigation in Unknown Environments through PRM-Guided Return-Conditioned Sequence Modeling Daniel Lawson A. H. Qureshi 24 7 0 11 Nov 2022
Controlling Commercial Cooling Systems Using Reinforcement Learning Jerry Luo Cosmin Paduraru Octavian Voicu Yuri Chervonyi Scott A. Munns ... Sims Witherspoon D. Parish Peter Dolan Chenyu Zhao D. Mankowitz OffRL AI4CE 28 25 0 11 Nov 2022
Active Example Selection for In-Context Learning Yiming Zhang Shi Feng Chenhao Tan SILM LRM 32 186 0 08 Nov 2022
Spatio-temporal Incentives Optimization for Ride-hailing Services with Offline Deep Reinforcement Learning Yanqiu Wu Qingyang Li Zhiwei Qin OffRL 12 3 0 06 Nov 2022
Wall Street Tree Search: Risk-Aware Planning for Offline Reinforcement Learning D. Elbaz Gal Novik Oren Salzman OffRL 30 0 0 06 Nov 2022
Contrastive Value Learning: Implicit Models for Simple Offline RL Bogdan Mazoure Benjamin Eysenbach Ofir Nachum Jonathan Tompson SSL OffRL 38 7 0 03 Nov 2022
Learning on the Job: Self-Rewarding Offline-to-Online Finetuning for Industrial Insertion of Novel Connectors from Vision Ashvin Nair Brian Zhu Gokul Narayanan Eugen Solowjow Sergey Levine OffRL OnRL 28 14 0 27 Oct 2022
Adaptive Behavior Cloning Regularization for Stable Offline-to-Online Reinforcement Learning Yi Zhao Rinu Boney Alexander Ilin Arno Solin Joni Pajarinen OffRL OnRL 26 39 0 25 Oct 2022
Reinforcement Learning and Bandits for Speech and Language Processing: Tutorial, Review and Outlook Baihan Lin OffRL AI4TS 28 27 0 24 Oct 2022
Dichotomy of Control: Separating What You Can Control from What You Cannot Mengjiao Yang Dale Schuurmans Pieter Abbeel Ofir Nachum OffRL 25 42 0 24 Oct 2022
Implicit Offline Reinforcement Learning via Supervised Learning Alexandre Piché Rafael Pardiñas David Vazquez Igor Mordatch C. Pal SSL OffRL 29 4 0 21 Oct 2022
MoCoDA: Model-based Counterfactual Data Augmentation Silviu Pitis Elliot Creager Ajay Mandlekar Animesh Garg OffRL 48 33 0 20 Oct 2022
The Pump Scheduling Problem: A Real-World Scenario for Reinforcement Learning Henrique Donancio L. Vercouter H. Roclawski AI4CE 18 1 0 20 Oct 2022
On the Feasibility of Cross-Task Transfer with Model-Based Reinforcement Learning Yifan Xu Nicklas Hansen Zirui Wang Yung-Chieh Chan H. Su Z. Tu OffRL 31 15 0 19 Oct 2022
Robust Offline Reinforcement Learning with Gradient Penalty and Constraint Relaxation Chengqian Gao Kelvin Xu Liu Liu Deheng Ye P. Zhao Zhiqiang Xu OffRL 42 2 0 19 Oct 2022
Boosting Offline Reinforcement Learning via Data Rebalancing Yang Yue Bingyi Kang Xiao Ma Zhongwen Xu Gao Huang Shuicheng Yan OffRL 26 22 0 17 Oct 2022
Causal Inference for De-biasing Motion Estimation from Robotic Observational Data Junhong Xu Kai-Li Yin Jason M. Gregory Lantao Liu CML 21 3 0 17 Oct 2022
A Policy-Guided Imitation Approach for Offline Reinforcement Learning Haoran Xu Li Jiang Jianxiong Li Xianyuan Zhan OffRL 26 61 0 15 Oct 2022
Sustainable Online Reinforcement Learning for Auto-bidding Zhiyu Mou Yusen Huo Rongquan Bai Mingzhou Xie Chuan Yu Jian Xu Bo Zheng OffRL OnRL 34 15 0 13 Oct 2022
BAFFLE: Hiding Backdoors in Offline Reinforcement Learning Datasets Chen Gong Zhou Yang Yunru Bai Junda He Jieke Shi ... Arunesh Sinha Bowen Xu Xinwen Hou David Lo Guoliang Fan AAML OffRL 21 7 0 07 Oct 2022
B2RL: An open-source Dataset for Building Batch Reinforcement Learning Hsin-Yu Liu Xiaohan Fu Bharathan Balaji Rajesh E. Gupta Dezhi Hong OffRL 16 4 0 30 Sep 2022