Pessimistic Bootstrapping for Uncertainty-Driven Offline Reinforcement Learning

International Conference on Learning Representations (ICLR), 2022

23 February 2022

Papers citing "Pessimistic Bootstrapping for Uncertainty-Driven Offline Reinforcement Learning"

50 / 101 papers shown

Behavior-Adaptive Q-Learning: A Unifying Framework for Offline-to-Online RL

261

05 Nov 2025

Adaptive Neighborhood-Constrained Q Learning for Offline Reinforcement Learning

153

04 Nov 2025

Online Optimization for Offline Safe Reinforcement Learning

133

24 Oct 2025

Provably Mitigating Corruption, Overoptimization, and Verbosity Simultaneously in Offline and Online RLHF/DPO Alignment

151

07 Oct 2025

Offline Reinforcement Learning in Large State Spaces: Algorithms and Guarantees

Nan Jiang

Tengyang Xie

OffRL

179

05 Oct 2025

Distilling Reasoning into Student LLMs: Local Naturalness for Selecting Teacher Data

158

05 Oct 2025

MOORL: A Framework for Integrating Offline-Online Reinforcement Learning

400

11 Jun 2025

Learning to Trust Bellman Updates: Selective State-Adaptive Regularization for Offline RL

205

26 May 2025

Decision Flow Policy Optimization

333

26 May 2025

Taming OOD Actions for Offline Reinforcement Learning: An Advantage-Based Approach

483

08 May 2025

Analytic Energy-Guided Policy Optimization for Offline Reinforcement Learning

925

03 May 2025

Uncertainty-aware Latent Safety Filters for Avoiding Out-of-Distribution Failures

Junwon Seo

Kensuke Nakamura

Andrea V. Bajcsy

411

01 May 2025

An Optimal Discriminator Weighted Imitation Perspective for Reinforcement LearningInternational Conference on Learning Representations (ICLR), 2025

376

17 Apr 2025

VIPO: Value Function Inconsistency Penalized Offline Reinforcement Learning

475

16 Apr 2025

Beyond Non-Expert Demonstrations: Outcome-Driven Action Constraint for Offline Reinforcement Learning

348

02 Apr 2025

Model-Based Offline Reinforcement Learning with Adversarial Data Augmentation

232

26 Mar 2025

Policy Constraint by Only Support Constraint for Offline Reinforcement Learning

238

07 Mar 2025

Data Center Cooling System Optimization Using Offline Reinforcement LearningInternational Conference on Learning Representations (ICLR), 2025

...

421

17 Feb 2025

Deterministic Uncertainty Propagation for Improved Model-Based Offline Reinforcement LearningNeural Information Processing Systems (NeurIPS), 2024

578

17 Jan 2025

An Investigation of Offline Reinforcement Learning in Factorisable Action Spaces

388

17 Nov 2024

Uncertainty-based Offline Variational Bayesian Reinforcement Learning for Robustness under Diverse Data CorruptionsNeural Information Processing Systems (NeurIPS), 2024

401

01 Nov 2024

Q-Distribution guided Q-learning for offline reinforcement learning: Uncertainty penalized Q-value via consistency modelNeural Information Processing Systems (NeurIPS), 2024

371

27 Oct 2024

Offline Reinforcement Learning with OOD State Correction and OOD Action SuppressionNeural Information Processing Systems (NeurIPS), 2024

561

25 Oct 2024

Grounded Answers for Multi-agent Decision-making Problem through Generative World ModelNeural Information Processing Systems (NeurIPS), 2024

355

03 Oct 2024

ComaDICE: Offline Cooperative Multi-Agent Reinforcement Learning with Stationary Distribution Shift RegularizationInternational Conference on Learning Representations (ICLR), 2024

The Viet Bui

Thanh Hong Nguyen

Tien Mai

OffRL

329

02 Oct 2024

Mitigating Distribution Shift in Model-based Offline RL via Shifts-aware Reward Learning

483

23 Aug 2024

SelfBC: Self Behavior Cloning for Offline Reinforcement LearningEuropean Conference on Artificial Intelligence (ECAI), 2024

272

04 Aug 2024

Reinforcement Learning for Sustainable Energy: A Survey

234

26 Jul 2024

CDSA: Conservative Denoising Score-based Algorithm for Offline Reinforcement Learning

Zeyuan Liu

Kai Yang

Xiu Li

OffRL

315

11 Jun 2024

UDQL: Bridging The Gap between MSE Loss and The Optimal Value Function in Offline Reinforcement Learning

Rui Yu

282

05 Jun 2024

Combining Experimental and Historical Data for Policy Evaluation

380

01 Jun 2024

Constrained Ensemble Exploration for Unsupervised Skill Discovery

Xuelong Li

436

25 May 2024

Exclusively Penalized Q-learning for Offline Reinforcement LearningNeural Information Processing Systems (NeurIPS), 2024

302

23 May 2024

Towards Robust Policy: Enhancing Offline Reinforcement Learning with Adversarial Attacks and DefensesInternational Conferences on Pattern Recognition and Artificial Intelligence (ICCPRAI), 2024

275

18 May 2024

Reinformer: Max-Return Sequence Modeling for Offline RLInternational Conference on Machine Learning (ICML), 2024

330

14 May 2024

Ensemble Successor Representations for Task Generalization in Offline-to-Online Reinforcement Learning

Zhen Wang

250

12 May 2024

Contrastive Representation for Data Filtering in Cross-Domain Offline Reinforcement LearningInternational Conference on Machine Learning (ICML), 2024

Xuelong Li

Zhen Wang

309

10 May 2024

Pessimistic Value Iteration for Multi-Task Data Sharing in Offline Reinforcement Learning

Jianye Hao

Zhen Wang

Xuelong Li

OffRL

272

30 Apr 2024

Diverse Randomized Value Functions: A Provably Pessimistic Approach for Offline Reinforcement Learning

Zhen Wang

314

09 Apr 2024

Compositional Conservatism: A Transductive Approach in Offline Reinforcement Learning

178

06 Apr 2024

Grid-Mapping Pseudo-Count Constraint for Offline Reinforcement Learning

Yi Shen

Hanyan Huang

Shan Xie

225

03 Apr 2024

Entropy-regularized Diffusion Policy with Q-Ensembles for Offline Reinforcement Learning

Ziwei Luo

309

06 Feb 2024

SEABO: A Simple Search-Based Method for Offline Imitation LearningInternational Conference on Learning Representations (ICLR), 2024

313

06 Feb 2024

ODICE: Revealing the Mystery of Distribution Correction Estimation via Orthogonal-gradient Update

317

01 Feb 2024

Off-Policy Primal-Dual Safe Reinforcement LearningInternational Conference on Learning Representations (ICLR), 2024

Zifan Wu

Bo Tang

Qian Lin

Chao Yu

299

26 Jan 2024

A unified uncertainty-aware exploration: Combining epistemic and aleatory uncertainty

Parvin Malekzadeh

Ming Hou

Konstantinos N. Plataniotis

210

05 Jan 2024

Uncertainty-Penalized Reinforcement Learning from Human Feedback with Diverse Reward LoRA Ensembles

Kele Xu

328

30 Dec 2023

Can Active Sampling Reduce Causal Confusion in Offline Reinforcement Learning?

Adrien Gaidon

203

28 Dec 2023

A Perspective of Q-value Estimation on Offline-to-Online Reinforcement LearningAAAI Conference on Artificial Intelligence (AAAI), 2023

Wanli Ouyang

335

12 Dec 2023

Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization

379

07 Dec 2023