Off-Policy Deep Reinforcement Learning without Exploration

7 December 2018

Papers citing "Off-Policy Deep Reinforcement Learning without Exploration"

50 / 339 papers shown

Title
Automatic Reward Shaping from Confounded Offline Data Mingxuan Li Junzhe Zhang Elias Bareinboim OffRL OnRL 33 1 0 16 May 2025
Modeling Unseen Environments with Language-guided Composable Causal Components in Reinforcement Learning Xinyue Wang Zhen Zhang OffRL CML 29 0 0 13 May 2025
DARLR: Dual-Agent Offline Reinforcement Learning for Recommender Systems with Dynamic Reward Yi Zhang Ruihong Qiu Xuwei Xu Jiajun Liu Sen Wang OffRL 34 0 0 12 May 2025
Video-Enhanced Offline Reinforcement Learning: A Model-Based Approach Minting Pan Yitao Zheng Jiajian Li Yunbo Wang Xiaokang Yang OffRL 48 0 0 10 May 2025
Analytic Energy-Guided Policy Optimization for Offline Reinforcement Learning Jifeng Hu Sili Huang Zhengyuan Yang Shengchao Hu Li Shen H. Chen Lichao Sun Yi-Ju Chang Dacheng Tao OffRL 155 0 0 03 May 2025
DOLCE: Decomposing Off-Policy Evaluation/Learning into Lagged and Current Effects Shu Tamano Masanori Nojima OffRL 37 0 0 02 May 2025
Learning Neural Control Barrier Functions from Offline Data with Conservatism Ihab Tabbara Hussein Sibai OffRL 65 0 0 01 May 2025
Offline Learning of Controllable Diverse Behaviors Mathieu Petitbois Rémy Portelas Sylvain Lamprier Ludovic Denoyer OffRL 36 0 0 25 Apr 2025
Generative Auto-Bidding with Value-Guided Explorations Jingtong Gao Yewen Li Shuai Mao Peng Jiang Nan Jiang ... Fei Pan Peng Jiang Kun Gai Bo An Xiangyu Zhao OffRL 41 0 0 20 Apr 2025
Reward Generation via Large Vision-Language Model in Offline Reinforcement Learning Younghwan Lee Tung M. Luu Donghoon Lee Chang D. Yoo 3DV VLM OffRL 41 0 0 03 Apr 2025
LaMOuR: Leveraging Language Models for Out-of-Distribution Recovery in Reinforcement Learning Chan Kim Seung-Woo Seo Seong-Woo Kim OODD 172 0 0 21 Mar 2025
Policy Regularization on Globally Accessible States in Cross-Dynamics Reinforcement Learning Zhenghai Xue Lang Feng Jiacheng Xu Kang Kang Xiang Wen Jingyi Wang Shuicheng Yan OffRL 53 0 0 10 Mar 2025
Mitigating Preference Hacking in Policy Optimization with Pessimism Dhawal Gupta Adam Fisch Christoph Dann Alekh Agarwal 76 0 0 10 Mar 2025
DPR: Diffusion Preference-based Reward for Offline Reinforcement Learning Teng Pang Bingzheng Wang Guoqiang Wu Yilong Yin OffRL 73 0 0 03 Mar 2025
Yes, Q-learning Helps Offline In-Context RL Denis Tarasov Alexander Nikulin Ilya Zisman Albina Klepach Andrei Polubarov Nikita Lyubaykin Alexander Derevyagin Igor Kiselev Vladislav Kurenkov OffRL OnRL 184 0 0 24 Feb 2025
Efficiently Solving Discounted MDPs with Predictions on Transition Matrices Lixing Lyu Jiashuo Jiang Wang Chi Cheung 42 1 0 24 Feb 2025
Learning Strategy Representation for Imitation Learning in Multi-Agent Games Shiqi Lei Kanghon Lee Linjing Li Jinkyoo Park OffRL 42 0 0 17 Feb 2025
Data Center Cooling System Optimization Using Offline Reinforcement Learning Xianyuan Zhan Xiangyu Zhu Peng Cheng Xiao Hu Ziteng He ... Chenhui Liu Tianshun Hong Yan Liang Yunxin Liu Feng Zhao AI4CE 62 0 0 17 Feb 2025
Zero-shot Model-based Reinforcement Learning using Large Language Models Abdelhakim Benechehab Youssef Attia El Hili Ambroise Odonnat Oussama Zekri Albert Thomas Giuseppe Paolo Maurizio Filippone I. Redko Balázs Kégl OffRL 72 1 0 17 Feb 2025
Model-Based Offline Reinforcement Learning with Reliability-Guaranteed Sequence Modeling Shenghong He OffRL 177 0 0 10 Feb 2025
The Best Instruction-Tuning Data are Those That Fit Dylan Zhang Qirun Dai Hao Peng ALM 117 4 0 06 Feb 2025
Dual Alignment Maximin Optimization for Offline Model-based RL Chi Zhou Wang Luo Haoran Li Congying Han Tiande Guo Zicheng Zhang OffRL 71 0 0 02 Feb 2025
B3C: A Minimalist Approach to Offline Multi-Agent Reinforcement Learning Woojun Kim Katia P. Sycara OffRL 94 0 0 30 Jan 2025
TEA: Trajectory Encoding Augmentation for Robust and Transferable Policies in Offline Reinforcement Learning Batıkan Bora Ormancı Phillip Swazinna Steffen Udluft Thomas Runkler OffRL 71 0 0 28 Jan 2025
Temporal Logic Specification-Conditioned Decision Transformer for Offline Safe Reinforcement Learning Zijian Guo Weichao Zhou Wenchao Li OffRL 102 2 0 28 Jan 2025
Coordinating Ride-Pooling with Public Transit using Reward-Guided Conservative Q-Learning: An Offline Training and Online Fine-Tuning Reinforcement Learning Framework Yulong Hu Tingting Dong Sen Li OffRL OnRL 61 0 0 24 Jan 2025
An Offline Multi-Agent Reinforcement Learning Framework for Radio Resource Management Eslam Eldeeb Hirley Alves OffRL 80 0 0 22 Jan 2025
Deterministic Uncertainty Propagation for Improved Model-Based Offline Reinforcement Learning Abdullah Akgul Manuel Haußmann M. Kandemir OffRL 76 1 0 17 Jan 2025
Integrating Multi-Modal Input Token Mixer Into Mamba-Based Decision Models: Decision MetaMamba Wall Kim Mamba 60 0 0 10 Jan 2025
SR-Reward: Taking The Path More Traveled Seyed Mahdi Basiri Azad Zahra Padar Gabriel Kalweit Joschka Boedecker OffRL 67 0 0 04 Jan 2025
OMG-RL:Offline Model-based Guided Reward Learning for Heparin Treatment Yooseok Lim Sujee Lee OffRL 150 0 0 03 Jan 2025
Enhancing Code LLMs with Reinforcement Learning in Code Generation: A Survey Junqiao Wang Zeng Zhang Yangfan He Yuyang Song Tianyu Shi ... Hengyuan Xu Kunyu Wu Guangwu Qian Qiuwu Chen Lewei He 38 11 0 03 Jan 2025
MADiff: Offline Multi-agent Learning with Diffusion Models Zhengbang Zhu Minghuan Liu Liyuan Mao Bingyi Kang Minkai Xu Yong Yu Stefano Ermon Weinan Zhang DiffM OffRL 88 34 0 03 Jan 2025
Marvel: Accelerating Safe Online Reinforcement Learning with Finetuned Offline Policy Keru Chen Honghao Wei Zhigang Deng Sen Lin OffRL OnRL 94 0 0 31 Dec 2024
ACL-QL: Adaptive Conservative Level in Q-Learning for Offline Reinforcement Learning Kun Wu Yinuo Zhao Zhihao Xu Zhengping Che Chengxiang Yin C. Liu Qinru Qiu Feiferi Feng OffRL 100 1 0 22 Dec 2024
Constrained Latent Action Policies for Model-Based Offline Reinforcement Learning Marvin Alles Philip Becker-Ehmck Patrick van der Smagt Maximilian Karl OffRL 39 0 0 07 Nov 2024
FALCON: Feedback-driven Adaptive Long/short-term memory reinforced Coding Optimization system Zeyuan Li Yangfan He Lewei He Jianhui Wang Tianyu Shi Bin Lei Yuchen Li Qiuwu Chen ALM 67 5 0 28 Oct 2024
Q-Distribution guided Q-learning for offline reinforcement learning: Uncertainty penalized Q-value via consistency model Jing Zhang Linjiajie Fang Kexin Shi Wenjia Wang Bing-Yi Jing OffRL 36 0 0 27 Oct 2024
Solving Continual Offline RL through Selective Weights Activation on Aligned Spaces Jifeng Hu Sili Huang Li Shen Zhejian Yang Shengchao Hu Shisong Tang H. Chen Yi-Ju Chang Dacheng Tao Lichao Sun OffRL 39 0 0 21 Oct 2024
Offline-to-online Reinforcement Learning for Image-based Grasping with Scarce Demonstrations Bryan Chan Anson Leung James Bergstra OffRL OnRL 59 0 0 19 Oct 2024
Steering Your Generalists: Improving Robotic Foundation Models via Value Guidance Mitsuhiko Nakamoto Oier Mees Aviral Kumar Sergey Levine OffRL 79 13 0 17 Oct 2024
Dynamic Learning Rate for Deep Reinforcement Learning: A Bandit Approach Henrique Donâncio Antoine Barrier Leah F. South Florence Forbes 28 0 0 16 Oct 2024
Meta-DT: Offline Meta-RL as Conditional Sequence Modeling with World Model Disentanglement Zhi Wang Li Zhang Wenhao Wu Yuanheng Zhu Dongbin Zhao C. L. Philip Chen OffRL 39 6 0 15 Oct 2024
DIAR: Diffusion-model-guided Implicit Q-learning with Adaptive Revaluation Jaehyun Park Yunho Kim Sejin Kim Byung-Jun Lee Sundong Kim OffRL 33 1 0 15 Oct 2024
MAD-TD: Model-Augmented Data stabilizes High Update Ratio RL C. Voelcker Marcel Hussing Eric Eaton Amir-massoud Farahmand Igor Gilitschenski 39 1 0 11 Oct 2024
Predictive Coding for Decision Transformer Tung M. Luu Donghoon Lee Chang D. Yoo OffRL 63 2 0 04 Oct 2024
Scaling Offline Model-Based RL via Jointly-Optimized World-Action Model Pretraining Jie Cheng Ruixi Qiao Gang Xiong Binhua Li Yingwei Ma Binhua Li Yongbin Li Yisheng Lv OffRL OnRL LM&Ro 50 3 0 01 Oct 2024
An Enhanced-State Reinforcement Learning Algorithm for Multi-Task Fusion in Large-Scale Recommender Systems Peng Liu Jiawei Zhu Cong Xu Ming Zhao Bin Wang 31 1 0 18 Sep 2024
Online Decision MetaMorphFormer: A Casual Transformer-Based Reinforcement Learning Framework of Universal Embodied Intelligence Luo Ji Runji Lin OffRL AI4CE LM&Ro 31 0 0 11 Sep 2024
Enhancing Sample Efficiency and Exploration in Reinforcement Learning through the Integration of Diffusion Models and Proximal Policy Optimization Gao Tianci Dmitriev D. Dmitry Konstantin A. Neusypin Yang Bo Rao Shengren OffRL 33 1 0 02 Sep 2024