v1v2v3 (latest)

Unifying PAC and Regret: Uniform PAC Bounds for Episodic Reinforcement Learning

22 March 2017

Papers citing "Unifying PAC and Regret: Uniform PAC Bounds for Episodic Reinforcement Learning"

50 / 229 papers shown

What Fundamental Structure in Reward Functions Enables Efficient Sparse-Reward Learning?

189

04 Sep 2025

ORVIT: Near-Optimal Online Distributionally Robust Reinforcement Learning

440

05 Aug 2025

Probably Approximately Correct Causal Discovery

155

25 Jul 2025

The Sample Complexity of Online Strategic Decision Making with Information Asymmetry and Knowledge Transportability

249

11 Jun 2025

BOFormer: Learning to Solve Multi-Objective Bayesian Optimization via Non-Markovian RLInternational Conference on Learning Representations (ICLR), 2025

381

28 May 2025

An Optimistic Algorithm for online CMDPS with Anytime Adversarial Constraints

263

28 May 2025

Multi-level Certified Defense Against Poisoning Attacks in Offline Reinforcement LearningInternational Conference on Learning Representations (ICLR), 2025

Benjamin I. P. Rubinstein

OffRL AAML

293

27 May 2025

Deep Actor-Critics with Tight Risk Certificates

543

26 May 2025

Automatic Reward Shaping from Confounded Offline Data

580

16 May 2025

Toward Efficient Exploration by Large Language Model Agents

Dilip Arumugam

Thomas L. Griffiths

LLMAG

473

29 Apr 2025

Towards Optimal Differentially Private Regret Bounds in Linear MDPs

Sharan Sahu

506

12 Apr 2025

Ensuring Safety in an Uncertain Environment: Constrained MDPs via Stochastic Thresholds

Qian Zuo

Fengxiang He

384

07 Apr 2025

Near-Optimal Sample Complexity for Iterated CVaR Reinforcement Learning with a Generative ModelInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2025

Zilong Deng

Simon Khan

Shaofeng Zou

604

11 Mar 2025

Minimax Optimal Reinforcement Learning with Quasi-OptimismInternational Conference on Learning Representations (ICLR), 2025

Harin Lee

Min-hwan Oh

OffRL

420

02 Mar 2025

Near-Optimal Reinforcement Learning with Shuffle Differential Privacy

Shaojie Bai

Mohammad Sadegh Talebi

517

18 Nov 2024

Individual Regret in Cooperative Stochastic Multi-Armed Bandits

Idan Barnea

Tal Lancewicki

Yishay Mansour

205

10 Nov 2024

Learning in Markov Games with Adaptive Adversaries: Policy Regret, Fundamental Barriers, and Efficient AlgorithmsNeural Information Processing Systems (NeurIPS), 2024

Thanh Nguyen-Tang

Raman Arora

446

01 Nov 2024

Corruption-Robust Linear Bandits: Minimax Optimality and Gap-Dependent MisspecificationNeural Information Processing Systems (NeurIPS), 2024

556

10 Oct 2024

State-free Reinforcement LearningNeural Information Processing Systems (NeurIPS), 2024

Mingyu Chen

Aldo Pacchiano

Xuezhou Zhang

368

27 Sep 2024

Near-Optimal Policy Identification in Robust Constrained Markov Decision Processes via Epigraph FormInternational Conference on Learning Representations (ICLR), 2024

Yutaka Matsuo

747

29 Aug 2024

Satisficing Exploration for Deep Reinforcement Learning

287

16 Jul 2024

Learning to Steer Markovian Agents under Model Uncertainty

518

14 Jul 2024

Narrowing the Gap between Adversarial and Stochastic MDPs via Policy Optimization

D. Tiapkin

Evgenii Chzhen

Jean-Michel Poggi

389

08 Jul 2024

Fast Rates for Bandit PAC Multiclass Classification

323

18 Jun 2024

Reinforcement Learning from Human Feedback without Reward Inference: Model-Free Algorithm and Instance-Dependent Analysis

464

11 Jun 2024

Stable Minima Cannot Overfit in Univariate ReLU Networks: Generalization by Large Step Sizes

Kaiqi Zhang

351

10 Jun 2024

Combinatorial Multivariant Multi-Armed Bandits with Applications to Episodic Reinforcement Learning and Beyond

Shuai Li

543

03 Jun 2024

Differentially Private Reinforcement Learning with Self-Play

Dan Qiao

Yu Wang

286

11 Apr 2024

Distributionally Robust Reinforcement Learning with Interactive Data Collection: Fundamental Hardness and Near-Optimal AlgorithmNeural Information Processing Systems (NeurIPS), 2024

Tong Zhang

289

04 Apr 2024

Utilizing Maximum Mean Discrepancy Barycenter for Propagating the Uncertainty of Value Functions in Reinforcement Learning

Srinjoy Roy

Swagatam Das

358

31 Mar 2024

Sample Efficient Myopic Exploration Through Multitask Reinforcement Learning with Diverse Tasks

431

03 Mar 2024

Truly No-Regret Learning in Constrained MDPs

446

24 Feb 2024

Double Duality: Variational Primal-Dual Policy Optimization for Constrained Reinforcement Learning

Mengdi Wang

344

16 Feb 2024

TransAxx: Efficient Transformers with Approximate Computing

377

12 Feb 2024

Sample Complexity Characterization for Linear Contextual MDPs

245

05 Feb 2024

Near-Optimal Reinforcement Learning with Self-Play under Adaptivity Constraints

Dan Qiao

Yu Wang

OffRL

332

02 Feb 2024

A Policy Gradient Primal-Dual Algorithm for Constrained MDPs with Uniform PAC Guarantees

568

31 Jan 2024

Behind the Myth of Exploration in Policy Gradients

Adrien Bolland

Gaspard Lambrechts

Damien Ernst

474

31 Jan 2024

Cascading Reinforcement LearningInternational Conference on Learning Representations (ICLR), 2024

Yihan Du

R. Srikant

Wei Chen

315

17 Jan 2024

Sample Efficient Reinforcement Learning with Partial Dynamics Knowledge

Meshal Alharbi

Mardavij Roozbehani

M. Dahleh

337

19 Dec 2023

Accelerating Exploration with Unlabeled Prior Data

472

09 Nov 2023

A Doubly Robust Approach to Sparse Reinforcement LearningInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2023

Wonyoung Hedge Kim

Garud Iyengar

A. Zeevi

246

23 Oct 2023

Learning to Make Adherence-Aware AdviceInternational Conference on Learning Representations (ICLR), 2023

Guanting Chen

Xiaocheng Li

Chunlin Sun

Hanzhao Wang

279

01 Oct 2023

Pure Exploration under Mediators' Feedback

Riccardo Poiani

Alberto Maria Metelli

Marcello Restelli

264

29 Aug 2023

Improving Sample Efficiency of Model-Free Algorithms for Zero-Sum Markov GamesInternational Conference on Machine Learning (ICML), 2023

Ming Yin

190

17 Aug 2023

Dyadic Reinforcement Learning

Inbal Nahum-Shani

Susan Murphy

260

15 Aug 2023

Provably Efficient Algorithm for Nonstationary Low-Rank MDPsNeural Information Processing Systems (NeurIPS), 2023

256

10 Aug 2023

Settling the Sample Complexity of Online Reinforcement LearningAnnual Conference Computational Learning Theory (COLT), 2023

884

25 Jul 2023

Efficient Action Robust Reinforcement Learning with Probabilistic Policy Execution Uncertainty

388

15 Jul 2023

Policy Finetuning in Reinforcement Learning via Design of Experiments using Offline DataNeural Information Processing Systems (NeurIPS), 2023

Ruiqi Zhang

Andrea Zanette

OffRL OnRL

343

10 Jul 2023