Improved Analysis of UCRL2 with Empirical Bernstein Inequality

10 July 2020

Papers citing "Improved Analysis of UCRL2 with Empirical Bernstein Inequality"

19 / 19 papers shown

Tail Distribution of Regret in Optimistic Reinforcement Learning

Sajad Khodadadian

Mehrdad Moharrami

150

23 Nov 2025

Statistical Guarantees for Offline Domain Randomization

345

11 Jun 2025

Model Selection for Average Reward RL with Application to Utility Maximization in Repeated Games

Alireza Masoumian

James R. Wright

587

09 Nov 2024

Learning Infinite-Horizon Average-Reward Linear Mixture MDPs of Bounded SpanInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2024

208

19 Oct 2024

Achieving Tractable Minimax Optimal Regret in Average Reward MDPs

Victor Boone

Zihan Zhang

232

03 Jun 2024

Reinforcement Learning for Infinite-Horizon Average-Reward Linear MDPs via Approximation by Discounted-Reward MDPsInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2024

Kihyuk Hong

Yufan Zhang

Ambuj Tewari

Dabeen Lee

Ambuj Tewari

471

23 May 2024

On Reward Structures of Markov Decision Processes

Falcon Z. Dai

308

28 Aug 2023

A Cover Time Study of a non-Markovian Algorithm

Guanhua Fang

G. Samorodnitsky

Zhiqiang Xu

315

08 Jun 2023

Horizon-Free and Variance-Dependent Reinforcement Learning for Latent Markov Decision ProcessesInternational Conference on Machine Learning (ICML), 2022

Runlong Zhou

Ruosong Wang

S. Du

428

20 Oct 2022

Optimism and Delays in Episodic Reinforcement LearningInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2021

Benjamin Howson

Ciara Pike-Burke

Sarah Filippi

268

15 Nov 2021

Understanding Domain Randomization for Sim-to-real Transfer

473

164

07 Oct 2021

Nearly Minimax Optimal Regret for Learning Infinite-horizon Average-reward MDPs with Linear Function ApproximationInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2021

Yue Wu

Dongruo Zhou

Quanquan Gu

227

15 Feb 2021

Improved Sample Complexity for Incremental Autonomous Exploration in MDPsNeural Information Processing Systems (NeurIPS), 2020

222

29 Dec 2020

Local Differential Privacy for Regret Minimization in Reinforcement Learning

397

15 Oct 2020

Improved Exploration in Factored Average-Reward MDPsInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2020

M. S. Talebi

Anders Jonsson

Odalric-Ambrym Maillard

259

09 Sep 2020

Learning Infinite-horizon Average-reward MDPs with Linear Function ApproximationInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2020

Chen-Yu Wei

Mehdi Jafarnia-Jahromi

Haipeng Luo

Rahul Jain

385

23 Jul 2020

A Provably Efficient Sample Collection Strategy for Reinforcement LearningNeural Information Processing Systems (NeurIPS), 2020

334

13 Jul 2020

Tightening Exploration in Upper Confidence Reinforcement LearningInternational Conference on Machine Learning (ICML), 2020

Hippolyte Bourel

Odalric-Ambrym Maillard

M. S. Talebi

355

20 Apr 2020

No-Regret Exploration in Goal-Oriented Reinforcement LearningInternational Conference on Machine Learning (ICML), 2019

339

07 Dec 2019