Episodic Reinforcement Learning in Finite MDPs: Minimax Lower Bounds Revisited

7 October 2020

Pierre Ménard

Papers citing "Episodic Reinforcement Learning in Finite MDPs: Minimax Lower Bounds Revisited"

50 / 84 papers shown

Title
Online Learning of Optimal Sequential Testing Policies Qiyuan Chen Raed Al Kontar OffRL 96 0 0 03 Sep 2025
ORVIT: Near-Optimal Online Distributionally Robust Reinforcement Learning Debamita Ghosh George Atia Yue Wang OffRL OOD 227 3 0 05 Aug 2025
Online Robust Multi-Agent Reinforcement Learning under Model Uncertainties Zain Ulabedeen Farhat Debamita Ghosh George Atia Yue Wang 130 1 0 04 Aug 2025
Statistical and Algorithmic Foundations of Reinforcement Learning Yuejie Chi Yuxin Chen Yuting Wei OffRL 181 2 0 19 Jul 2025
The Sample Complexity of Online Strategic Decision Making with Information Asymmetry and Knowledge Transportability Jiachen Hu Rui Ai Han Zhong Xiaoyu Chen L. Wang Zhaoran Wang Zhuoran Yang 165 0 0 11 Jun 2025
When a Reinforcement Learning Agent Encounters Unknown Unknowns Juntian Zhu Miguel de Carvalho Zhouwang Yang Fengxiang He 243 0 0 19 May 2025
TW-CRL: Time-Weighted Contrastive Reward Learning for Efficient Inverse Reinforcement Learning Yuxuan Li Yicheng Gao Ning Yang Stephen Xia OffRL 298 0 0 08 Apr 2025
Minimax Optimal Reinforcement Learning with Quasi-OptimismInternational Conference on Learning Representations (ICLR), 2025 Harin Lee Min-hwan Oh OffRL 255 1 0 02 Mar 2025
A Refined Analysis of UCBVI Simone Drago Marco Mussi Alberto Maria Metelli 307 0 0 24 Feb 2025
Hybrid Transfer Reinforcement Learning: Provable Sample Efficiency from Shifted-Dynamics DataInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2024 Chengrui Qu Laixi Shi Kishan Panaganti Pengcheng You Adam Wierman OffRL OnRL 229 4 0 06 Nov 2024
Learning in Markov Games with Adaptive Adversaries: Policy Regret, Fundamental Barriers, and Efficient AlgorithmsNeural Information Processing Systems (NeurIPS), 2024 Thanh Nguyen-Tang Raman Arora 306 1 0 01 Nov 2024
Can we hop in general? A discussion of benchmark selection and design using the Hopper environment C. Voelcker Marcel Hussing Eric Eaton OffRL 276 6 0 11 Oct 2024
Assouad, Fano, and Le Cam with Interaction: A Unifying Lower Bound Framework and Characterization for Bandit LearnabilityNeural Information Processing Systems (NeurIPS), 2024 Fan Chen Dylan J. Foster Yanjun Han Jian Qian Alexander Rakhlin Yunbei Xu 232 3 0 07 Oct 2024
Finite-Sample Analysis of the Monte Carlo Exploring Starts Algorithm for Reinforcement Learning Suei-Wen Chen Keith Ross Pierre Youssef 162 1 0 03 Oct 2024
State-free Reinforcement LearningNeural Information Processing Systems (NeurIPS), 2024 Mingyu Chen Aldo Pacchiano Xuezhou Zhang 199 0 0 27 Sep 2024
Optimistic Q-learning for average reward and episodic reinforcement learning Priyank Agrawal Shipra Agrawal 373 6 0 18 Jul 2024
Narrowing the Gap between Adversarial and Stochastic MDPs via Policy Optimization D. Tiapkin Evgenii Chzhen Jean-Michel Poggi 280 1 0 08 Jul 2024
Oracle-Efficient Reinforcement Learning for Max Value Ensembles Marcel Hussing Michael Kearns Aaron Roth S. B. Sengupta Jessica Sorrell 182 0 0 27 May 2024
Waypoint-Based Reinforcement Learning for Robot Manipulation Tasks Shaunak A. Mehta Soheil Habibian Dylan P. Losey SSL 197 6 0 20 Mar 2024
The Value of Reward Lookahead in Reinforcement LearningNeural Information Processing Systems (NeurIPS), 2024 Nadav Merlis Dorian Baudry Vianney Perchet 195 1 0 18 Mar 2024
Horizon-Free Regret for Linear Markov Decision Processes Zihan Zhang Jason D. Lee Yuxin Chen Simon S. Du 151 3 0 15 Mar 2024
Truly No-Regret Learning in Constrained MDPs Adrian Müller Pragnya Alatur Volkan Cevher Giorgia Ramponi Niao He 285 15 0 24 Feb 2024
Sample Efficient Reinforcement Learning with Partial Dynamics Knowledge Meshal Alharbi Mardavij Roozbehani M. Dahleh 236 4 0 19 Dec 2023
The Effective Horizon Explains Deep RL Performance in Stochastic EnvironmentsInternational Conference on Learning Representations (ICLR), 2023 Cassidy Laidlaw Banghua Zhu Stuart J. Russell Anca Dragan 274 5 0 13 Dec 2023
Probabilistic Inference in Reinforcement Learning Done RightNeural Information Processing Systems (NeurIPS), 2023 Jean Tarbouriech Tor Lattimore Brendan O'Donoghue BDL OffRL 226 9 0 22 Nov 2023
Learning Adversarial Low-rank Markov Decision Processes with Unknown Transition and Full-information FeedbackNeural Information Processing Systems (NeurIPS), 2023 Canzhe Zhao Ruofeng Yang Baoxiang Wang Xuezhou Zhang Shuai Li 189 4 0 14 Nov 2023
Towards Instance-Optimality in Online PAC Reinforcement Learning Aymen Al Marjani Andrea Tirinzoni Emilie Kaufmann OffRL 217 5 0 31 Oct 2023
When is Agnostic Reinforcement Learning Statistically Tractable?Neural Information Processing Systems (NeurIPS), 2023 Zeyu Jia Gene Li Alexander Rakhlin Ayush Sekhari Nathan Srebro OffRL 260 7 0 09 Oct 2023
Learning to Make Adherence-Aware AdviceInternational Conference on Learning Representations (ICLR), 2023 Guanting Chen Xiaocheng Li Chunlin Sun Hanzhao Wang 132 15 0 01 Oct 2023
Model-Free, Regret-Optimal Best Policy Identification in Online CMDPs Zihan Zhou Honghao Wei Lei Ying OffRL 366 1 0 27 Sep 2023
Minimax Optimal Q Learning with Nearest NeighborsIEEE Transactions on Information Theory (IEEE Trans. Inf. Theory), 2023 Puning Zhao Lifeng Lai OffRL 225 15 0 03 Aug 2023
Settling the Sample Complexity of Online Reinforcement LearningAnnual Conference Computational Learning Theory (COLT), 2023 Zihan Zhang Yuxin Chen Jason D. Lee S. Du OffRL 666 34 0 25 Jul 2023
Near-optimal Conservative Exploration in Reinforcement Learning under Episode-wise ConstraintsInternational Conference on Machine Learning (ICML), 2023 Donghao Li Ruiquan Huang Cong Shen Jing Yang 214 4 0 09 Jun 2023
Regret Bounds for Risk-sensitive Reinforcement Learning with Lipschitz Dynamic Risk MeasuresInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2023 Hao Liang Zhihui Luo 279 5 0 04 Jun 2023
Efficient Reinforcement Learning with Impaired Observability: Learning to Act with Delayed and Missing State ObservationsIEEE Transactions on Information Theory (IEEE Trans. Inf. Theory), 2023 Minshuo Chen Jie Meng Yunru Bai Yinyu Ye H. Vincent Poor Mengdi Wang 261 2 0 02 Jun 2023
Differentially Private Episodic Reinforcement Learning with Heavy-tailed RewardsInternational Conference on Machine Learning (ICML), 2023 Yulian Wu Xingyu Zhou Sayak Ray Chowdhury Haiyan Zhao 316 3 0 01 Jun 2023
Reward-agnostic Fine-tuning: Provable Statistical Benefits of Hybrid Reinforcement LearningNeural Information Processing Systems (NeurIPS), 2023 Gen Li Wenhao Zhan Jason D. Lee Yuejie Chi Yuxin Chen OffRL OnRL 240 16 0 17 May 2023
Towards Theoretical Understanding of Inverse Reinforcement LearningInternational Conference on Machine Learning (ICML), 2023 Alberto Maria Metelli Filippo Lazzati Marcello Restelli 155 19 0 25 Apr 2023
Minimax-Optimal Reward-Agnostic Exploration in Reinforcement LearningAnnual Conference Computational Learning Theory (COLT), 2023 Gen Li Yuling Yan Yuxin Chen Jianqing Fan OffRL 256 15 0 14 Apr 2023
Improved Sample Complexity for Reward-free Reinforcement Learning under Low-rank MDPsInternational Conference on Learning Representations (ICLR), 2023 Yuan Cheng Ruiquan Huang J. Yang Yitao Liang OffRL 210 9 0 20 Mar 2023
Fast Rates for Maximum Entropy ExplorationInternational Conference on Machine Learning (ICML), 2023 D. Tiapkin Denis Belomestny Daniele Calandriello Eric Moulines Rémi Munos A. Naumov Pierre Perrault Yunhao Tang Michal Valko Pierre Menard 236 24 0 14 Mar 2023
Sharp Variance-Dependent Bounds in Reinforcement Learning: Best of Both Worlds in Stochastic and Deterministic EnvironmentsInternational Conference on Machine Learning (ICML), 2023 Runlong Zhou Zihan Zhang S. Du 252 16 0 31 Jan 2023
Regret Bounds for Markov Decision Processes with Recursive Optimized Certainty EquivalentsInternational Conference on Machine Learning (ICML), 2023 Wenkun Xu Ningyuan Chen X. He 252 13 0 30 Jan 2023
Adversarial Online Multi-Task Reinforcement LearningInternational Conference on Algorithmic Learning Theory (ALT), 2023 Quan Nguyen Nishant A. Mehta 139 1 0 11 Jan 2023
Model-Free Reinforcement Learning with the Decision-Estimation CoefficientNeural Information Processing Systems (NeurIPS), 2022 Dylan J. Foster Noah Golowich Jian Qian Alexander Rakhlin Ayush Sekhari OffRL 217 12 0 25 Nov 2022
Max-Min Off-Policy Actor-Critic Method Focusing on Worst-Case Robustness to Model MisspecificationNeural Information Processing Systems (NeurIPS), 2022 Takumi Tanabe Reimi Sato Kazuto Fukuchi Jun Sakuma Youhei Akimoto OffRL 242 14 0 07 Nov 2022
Bridging Distributional and Risk-sensitive Reinforcement Learning with Provable Regret BoundsJournal of machine learning research (JMLR), 2022 Hao Liang Zhihui Luo 305 18 0 25 Oct 2022
Horizon-Free and Variance-Dependent Reinforcement Learning for Latent Markov Decision ProcessesInternational Conference on Machine Learning (ICML), 2022 Runlong Zhou Ruosong Wang S. Du 246 3 0 20 Oct 2022
Bilinear Exponential Family of MDPs: Frequentist Regret Bound with Tractable Exploration and PlanningAAAI Conference on Artificial Intelligence (AAAI), 2022 Reda Ouhamma D. Basu Odalric-Ambrym Maillard OffRL 158 12 0 05 Oct 2022
Square-root regret bounds for continuous-time episodic Markov decision processesMathematics of Operations Research (MOR), 2022 Ningyuan Chen X. Zhou 288 6 0 03 Oct 2022