Reward-Free Exploration for Reinforcement Learning

International Conference on Machine Learning (ICML), 2020

7 February 2020

Max Simchowitz

Papers citing "Reward-Free Exploration for Reinforcement Learning"

50 / 159 papers shown

Rate optimal learning of equilibria from data

141

10 Oct 2025

Q-Learning with Fine-Grained Gap-Dependent Regret

Haochen Zhang

Zhong Zheng

Lingzhou Xue

206

08 Oct 2025

Instance-Dependent Continuous-Time Reinforcement Learning via Maximum Likelihood Estimation

268

04 Aug 2025

Mixture of Autoencoder Experts Guidance using Unlabeled and Incomplete Data for Exploration in Reinforcement Learning

Elias Malomgré

Pieter Simoens

OffRL

191

21 Jul 2025

Statistical and Algorithmic Foundations of Reinforcement Learning

278

19 Jul 2025

Learning Policy Committees for Effective Personalization in MDPs with Diverse Tasks

470

26 Feb 2025

DIAL: Distribution-Informed Adaptive Learning of Multi-Task Constraints for Safety-Critical Systems

Se-Wook Yoo

Seung-Woo Seo

433

30 Jan 2025

Hybrid Transfer Reinforcement Learning: Provable Sample Efficiency from Shifted-Dynamics DataInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2024

312

06 Nov 2024

Learning in Markov Games with Adaptive Adversaries: Policy Regret, Fundamental Barriers, and Efficient AlgorithmsNeural Information Processing Systems (NeurIPS), 2024

Thanh Nguyen-Tang

Raman Arora

447

01 Nov 2024

Can we hop in general? A discussion of benchmark selection and design using the Hopper environment

389

11 Oct 2024

Gap-Dependent Bounds for Q-Learning using Reference-Advantage DecompositionInternational Conference on Learning Representations (ICLR), 2024

457

10 Oct 2024

Task-Agnostic Pre-training and Task-Guided Fine-tuning for Versatile Diffusion Planner

462

30 Sep 2024

Advances in Preference-based Reinforcement Learning: A ReviewIEEE International Conference on Systems, Man and Cybernetics (SMC), 2022

304

21 Aug 2024

Efficient Reinforcement Learning in Probabilistic Reward MachinesAAAI Conference on Artificial Intelligence (AAAI), 2024

Xiaofeng Lin

Xuezhou Zhang

317

19 Aug 2024

DeepSeek-Prover-V1.5: Harnessing Proof Assistant Feedback for Reinforcement Learning and Monte-Carlo Tree Search

Junxiao Song

...

Fuli Luo

370

154

15 Aug 2024

Problem Solving Through Human-AI Preference-Based CooperationComputational Linguistics (CL), 2024

1.1K

14 Aug 2024

A Single Goal is All You Need: Skills and Exploration Emerge from Contrastive RL without Rewards, Demonstrations, or SubgoalsInternational Conference on Learning Representations (ICLR), 2024

451

11 Aug 2024

Uncertainty-Aware Reward-Free Exploration with General Function Approximation

498

24 Jun 2024

Beyond Optimism: Exploration With Partially Observable Rewards

300

20 Jun 2024

Hybrid Reinforcement Learning from Offline Observation Alone

353

11 Jun 2024

How to Explore with Belief: State Entropy Maximization in POMDPs

287

04 Jun 2024

RL in Latent MDPs is Tractable: Online Guarantees via Off-Policy Evaluation

Jeongyeol Kwon

Shie Mannor

Constantine Caramanis

Yonathan Efroni

OffRL

453

03 Jun 2024

Offline Oracle-Efficient Learning for Contextual MDPs via Layerwise Exploration-Exploitation Tradeoff

Jian Qian

Haichen Hu

David Simchi-Levi

292

28 May 2024

What Are the Odds? Improving the foundations of Statistical Model Checking

Tobias Meggendorfer

Maximilian Weininger

Patrick Wienhoft

507

08 Apr 2024

Multiple-policy Evaluation via Density Estimation

444

29 Mar 2024

Horizon-Free Regret for Linear Markov Decision Processes

260

15 Mar 2024

Sample Efficient Myopic Exploration Through Multitask Reinforcement Learning with Diverse Tasks

431

03 Mar 2024

Scale-free Adversarial Reinforcement Learning

Mingyu Chen

Xuezhou Zhang

352

01 Mar 2024

ACE : Off-Policy Actor-Critic with Causality-Aware Entropy Regularization

Furong Huang

386

22 Feb 2024

Offline Multi-task Transfer RL with Representational Penalization

386

19 Feb 2024

Compressing Deep Reinforcement Learning Networks with a Dynamic Structured Pruning Method for Autonomous Driving

Dusit Niyato

228

07 Feb 2024

Near-Optimal Reinforcement Learning with Self-Play under Adaptivity Constraints

Dan Qiao

Yu Wang

OffRL

335

02 Feb 2024

Experiment Planning with Function ApproximationNeural Information Processing Systems (NeurIPS), 2024

239

10 Jan 2024

Accelerating Exploration with Unlabeled Prior Data

473

09 Nov 2023

DrM: Mastering Visual Reinforcement Learning through Dormant Ratio MinimizationInternational Conference on Learning Representations (ICLR), 2023

...

Furong Huang

394

30 Oct 2023

Offline Retraining for Online RL: Decoupled Policy Learning to Mitigate Exploration Bias

343

12 Oct 2023

Exploiting Causal Graph Priors with Posterior Sampling for Reinforcement LearningInternational Conference on Learning Representations (ICLR), 2023

374

11 Oct 2023

Spectral Entry-wise Matrix Estimation for Low-Rank Reinforcement LearningNeural Information Processing Systems (NeurIPS), 2023

Stefan Stojanovic

Yassir Jedra

Alexandre Proutière

363

10 Oct 2023

When is Agnostic Reinforcement Learning Statistically Tractable?Neural Information Processing Systems (NeurIPS), 2023

383

09 Oct 2023

Learning to Make Adherence-Aware AdviceInternational Conference on Learning Representations (ICLR), 2023

Guanting Chen

Xiaocheng Li

Chunlin Sun

Hanzhao Wang

280

01 Oct 2023

Zero-Shot Reinforcement Learning from Low Quality DataNeural Information Processing Systems (NeurIPS), 2023

404

26 Sep 2023

FoX: Formation-aware exploration in multi-agent reinforcement learningAAAI Conference on Artificial Intelligence (AAAI), 2023

383

22 Aug 2023

Settling the Sample Complexity of Online Reinforcement LearningAnnual Conference Computational Learning Theory (COLT), 2023

907

25 Jul 2023

Policy Finetuning in Reinforcement Learning via Design of Experiments using Offline DataNeural Information Processing Systems (NeurIPS), 2023

Ruiqi Zhang

Andrea Zanette

OffRL OnRL

347

10 Jul 2023

Is RLHF More Difficult than Standard RL?Neural Information Processing Systems (NeurIPS), 2023

413

25 Jun 2023

Offline Policy Evaluation for Reinforcement Learning with Adaptively Collected Data

Ming Yin

321

24 Jun 2023

Active Coverage for PAC Reinforcement LearningAnnual Conference Computational Learning Theory (COLT), 2023

263

23 Jun 2023

Optimistic Active Exploration of Dynamical SystemsNeural Information Processing Systems (NeurIPS), 2023

624

21 Jun 2023

Provably Efficient Adversarial Imitation Learning with Unknown TransitionsConference on Uncertainty in Artificial Intelligence (UAI), 2023

Tian Xu

Ziniu Li

Yang Yu

Zhimin Luo

186

11 Jun 2023

Provable Reward-Agnostic Preference-Based Reinforcement LearningInternational Conference on Learning Representations (ICLR), 2023

468

29 May 2023