Mildly Conservative Q-Learning for Offline Reinforcement Learning

9 June 2022

Papers citing "Mildly Conservative Q-Learning for Offline Reinforcement Learning"

27 / 27 papers shown

Title
What Matters for Batch Online Reinforcement Learning in Robotics? Perry Dong Suvir Mirchandani Dorsa Sadigh Chelsea Finn OffRL 21 0 0 12 May 2025
Analytic Energy-Guided Policy Optimization for Offline Reinforcement Learning Jifeng Hu Sili Huang Z. Yang Shengchao Hu Li Shen H. Chen Lichao Sun Yi-Ju Chang Dacheng Tao OffRL 100 0 0 03 May 2025
Fine-Tuning without Performance Degradation Han Wang Adam White Martha White OnRL 122 0 0 01 May 2025
Data Center Cooling System Optimization Using Offline Reinforcement Learning Xianyuan Zhan Xiangyu Zhu Peng Cheng Xiao Hu Ziteng He ... Chenhui Liu Tianshun Hong Yan Liang Yunxin Liu Feng Zhao AI4CE 57 0 0 17 Feb 2025
Dual Alignment Maximin Optimization for Offline Model-based RL Chi Zhou Wang Luo Haoran Li Congying Han Tiande Guo Zicheng Zhang OffRL 61 0 0 02 Feb 2025
State Combinatorial Generalization In Decision Making With Conditional Diffusion Models Xintong Duan Yutong He Fahim Tajwar Wen-Tse Chen Ruslan Salakhutdinov Jeff Schneider OffRL AI4CE 94 0 0 22 Jan 2025
Q-Distribution guided Q-learning for offline reinforcement learning: Uncertainty penalized Q-value via consistency model Jing Zhang Linjiajie Fang Kexin Shi Wenjia Wang Bing-Yi Jing OffRL 31 0 0 27 Oct 2024
SAMBO-RL: Shifts-aware Model-based Offline Reinforcement Learning Wang Luo Haoran Li Zicheng Zhang Congying Han Jiayu Lv Tiande Guo OffRL 40 1 0 23 Aug 2024
Residual Learning and Context Encoding for Adaptive Offline-to-Online Reinforcement Learning Mohammadreza Nakhaei Aidan Scannell J. Pajarinen OffRL 45 1 0 12 Jun 2024
CDSA: Conservative Denoising Score-based Algorithm for Offline Reinforcement Learning Zeyuan Liu Kai Yang Xiu Li OffRL 42 0 0 11 Jun 2024
UDQL: Bridging The Gap between MSE Loss and The Optimal Value Function in Offline Reinforcement Learning Yu Zhang Rui Yu Zhipeng Yao Wenyuan Zhang Jun Wang Liming Zhang OffRL 45 0 0 05 Jun 2024
Cross-Domain Policy Adaptation by Capturing Representation Mismatch Jiafei Lyu Chenjia Bai Jingwen Yang Zongqing Lu Xiu Li 26 8 0 24 May 2024
Exclusively Penalized Q-learning for Offline Reinforcement Learning Junghyuk Yeom Yonghyeon Jo Jungmo Kim Sanghyeon Lee Seungyul Han OffRL 40 2 0 23 May 2024
Enhancing Reinforcement Learning Agents with Local Guides Paul Daoudi Bogdan Robu Christophe Prieur Ludovic Dos Santos M. Barlier OnRL 21 3 0 21 Feb 2024
HiBid: A Cross-Channel Constrained Bidding System with Budget Allocation by Hierarchical Offline Deep Reinforcement Learning Hao Wang Bo Tang Chi Harold Liu Shangqin Mao Jiahong Zhou Zipeng Dai Yaqi Sun Qianlong Xie Xingxing Wang Dong Wang OffRL 28 3 0 29 Dec 2023
Zero-Shot Reinforcement Learning from Low Quality Data Scott Jeen Tom Bewley Jonathan M. Cullen OffRL OnRL 32 0 0 26 Sep 2023
LLQL: Logistic Likelihood Q-Learning for Reinforcement Learning Outongyi Lv Bingxin Zhou OffRL 34 0 0 05 Jul 2023
Safe Offline Reinforcement Learning with Real-Time Budget Constraints Qian Lin Bo Tang Zifan Wu Chao Yu Shangqin Mao Qianlong Xie Xingxing Wang Dong Wang OffRL 32 11 0 01 Jun 2023
Towards Real-World Applications of Personalized Anesthesia Using Policy Constraint Q Learning for Propofol Infusion Control Xiuding Cai Jiao Chen Yaoyao Zhu Beiming Wang Yu Yao OffRL 32 5 0 17 Mar 2023
Anti-Exploration by Random Network Distillation Alexander Nikulin Vladislav Kurenkov Denis Tarasov Sergey Kolesnikov 22 24 0 31 Jan 2023
Offline Reinforcement Learning with Implicit Q-Learning Ilya Kostrikov Ashvin Nair Sergey Levine OffRL 212 837 0 12 Oct 2021
Offline Reinforcement Learning with Reverse Model-based Imagination Jianhao Wang Wenzhe Li Haozhe Jiang Guangxiang Zhu Siyuan Li Chongjie Zhang OffRL 101 59 0 01 Oct 2021
Offline Decentralized Multi-Agent Reinforcement Learning Jiechuan Jiang Zongqing Lu OffRL 13 37 0 04 Aug 2021
Conservative Offline Distributional Reinforcement Learning Yecheng Jason Ma Dinesh Jayaraman Osbert Bastani OffRL 65 78 0 12 Jul 2021
Continuous Doubly Constrained Batch Reinforcement Learning Rasool Fakoor Jonas W. Mueller Kavosh Asadi Pratik Chaudhari Alex Smola OffRL 202 27 0 18 Feb 2021
COMBO: Conservative Offline Model-Based Policy Optimization Tianhe Yu Aviral Kumar Rafael Rafailov Aravind Rajeswaran Sergey Levine Chelsea Finn OffRL 214 413 0 16 Feb 2021
EMaQ: Expected-Max Q-Learning Operator for Simple Yet Effective Offline and Online RL Seyed Kamyar Seyed Ghasemipour Dale Schuurmans S. Gu OffRL 209 119 0 21 Jul 2020