v1v2 (latest)

Nearly Minimax Optimal Reinforcement Learning for Linear Mixture Markov Decision Processes

Annual Conference Computational Learning Theory (COLT), 2020

15 December 2020

Dongruo Zhou

Quanquan Gu

Csaba Szepesvári

ArXiv (abs)PDF HTML

Papers citing "Nearly Minimax Optimal Reinforcement Learning for Linear Mixture Markov Decision Processes"

50 / 168 papers shown

Distributionally Robust Online Markov Game with Linear Function Approximation

Zewu Zheng

Yuanyuan Lin

OOD OffRL

356

11 Nov 2025

Vector-valued self-normalized concentration inequalities beyond sub-Gaussianity

Diego Martinez-Taboada

Tomás González

Aaditya Ramdas

119

05 Nov 2025

Variance-Aware Feel-Good Thompson Sampling for Contextual Bandits

Xuheng Li

Quanquan Gu

153

03 Nov 2025

Q-Learning with Shift-Aware Upper Confidence Bound in Non-Stationary Reinforcement Learning

188

03 Oct 2025

Replicable Reinforcement Learning with Linear Function Approximation

237

10 Sep 2025

Outcome-based Exploration for LLM Reasoning

321

08 Sep 2025

ORVIT: Near-Optimal Online Distributionally Robust Reinforcement Learning

439

05 Aug 2025

Instance-Dependent Continuous-Time Reinforcement Learning via Maximum Likelihood Estimation

268

04 Aug 2025

Generalized Kernelized Bandits: A Novel Self-Normalized Bernstein-Like Dimension-Free Inequality and Regret Bounds

Alberto Maria Metelli

Simone Drago

Marco Mussi

192

03 Aug 2025

The Sample Complexity of Online Strategic Decision Making with Information Asymmetry and Knowledge Transportability

249

11 Jun 2025

Neural Variance-aware Dueling Bandits with Deep Representation and Shallow Exploration

271

02 Jun 2025

Linear Mixture Distributionally Robust Markov Decision Processes

Zhishuai Liu

Pan Xu

366

23 May 2025

Provably Efficient Multi-Objective Bandit Algorithms under Preference-Centric Customization

Linfeng Cao

Ming Shi

Ness B. Shroff

239

19 Feb 2025

Improved Regret Analysis in Gaussian Process Bandits: Optimality for Noiseless Reward, RKHS norm, and Non-Stationary Variance

S. Iwazaki

Shion Takeno

392

10 Feb 2025

Catoni Contextual Bandits are Robust to Heavy-tailed Rewards

491

04 Feb 2025

Provably Efficient Reinforcement Learning with Multinomial Logit Function ApproximationNeural Information Processing Systems (NeurIPS), 2024

654

17 Jan 2025

Digital Twin Calibration with Model-Based Reinforcement Learning

433

04 Jan 2025

Variance-Aware Linear UCB with Deep Representation for Neural Contextual BanditsInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2024

H. Bui

Enrique Mallada

Anqi Liu

1.2K

08 Nov 2024

Near-Optimal Dynamic Regret for Adversarial Linear Mixture MDPsNeural Information Processing Systems (NeurIPS), 2024

Long-Fei Li

Peng Zhao

Zhi Zhou

283

05 Nov 2024

Demystifying Linear MDPs and Novel Dynamics Aggregation FrameworkInternational Conference on Learning Representations (ICLR), 2024

Joongkyu Lee

Min-hwan Oh

339

31 Oct 2024

Learning Infinite-Horizon Average-Reward Linear Mixture MDPs of Bounded SpanInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2024

208

19 Oct 2024

Upper and Lower Bounds for Distributionally Robust Off-Dynamics Reinforcement Learning

Zhishuai Liu

Weixin Wang

Pan Xu

412

30 Sep 2024

Second Order Bounds for Contextual Bandits with Function ApproximationInternational Conference on Learning Representations (ICLR), 2024

Aldo Pacchiano

689

24 Sep 2024

Hybrid Reinforcement Learning Breaks Sample Size Barriers in Linear MDPsNeural Information Processing Systems (NeurIPS), 2024

368

08 Aug 2024

Pessimism Meets Risk: Risk-Sensitive Offline Reinforcement Learning

293

10 Jul 2024

Warm-up Free Policy Optimization: Improved Regret in Linear Markov Decision Processes

Asaf B. Cassel

Aviv A. Rosenberg

366

03 Jul 2024

Uncertainty-Aware Reward-Free Exploration with General Function Approximation

493

24 Jun 2024

Imitation Learning in Discounted Linear MDPs without exploration assumptionsInternational Conference on Machine Learning (ICML), 2024

Luca Viano

Stratis Skoulakis

Volkan Cevher

355

03 May 2024

Sample-efficient Learning of Infinite-horizon Average-reward MDPs with General Function Approximation

Jianliang He

Han Zhong

Zhuoran Yang

355

19 Apr 2024

Distributionally Robust Reinforcement Learning with Interactive Data Collection: Fundamental Hardness and Near-Optimal AlgorithmNeural Information Processing Systems (NeurIPS), 2024

Tong Zhang

284

04 Apr 2024

Sample Complexity of Offline Distributionally Robust Linear Markov Decision Processes

494

19 Mar 2024

Prior-dependent analysis of posterior sampling reinforcement learning with function approximation

Yingru Li

Zhi-Quan Luo

232

17 Mar 2024

Horizon-Free Regret for Linear Markov Decision Processes

254

15 Mar 2024

Variance-Dependent Regret Bounds for Non-stationary Linear Bandits

345

15 Mar 2024

Regret Minimization via Saddle Point OptimizationNeural Information Processing Systems (NeurIPS), 2024

Johannes Kirschner

Seyed Alireza Bakhtiari

Kushagra Chandak

Volodymyr Tkachuk

Csaba Szepesvári

240

15 Mar 2024

A Natural Extension To Online Algorithms For Hybrid RL With Limited Coverage

Kevin Tan

Ziping Xu

OffRL OnRL

395

07 Mar 2024

Improved Algorithm for Adversarial Linear Mixture MDPs with Bandit Feedback and Unknown TransitionInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2024

Long-Fei Li

Peng Zhao

Zhi Zhou

368

07 Mar 2024

Provable Risk-Sensitive Distributional Reinforcement Learning with General Function Approximation

413

28 Feb 2024

Nearly Minimax Optimal Regret for Learning Linear Mixture Stochastic Shortest Path

Qiwei Di

Jiafan He

Dongruo Zhou

Quanquan Gu

231

14 Feb 2024

Noise-Adaptive Confidence Sets for Linear Bandits and Application to Bayesian OptimizationInternational Conference on Machine Learning (ICML), 2024

Kwang-Sung Jun

Jungtaek Kim

317

12 Feb 2024

A Policy Gradient Primal-Dual Algorithm for Constrained MDPs with Uniform PAC Guarantees

566

31 Jan 2024

Rethinking Model-based, Policy-based, and Value-based Reinforcement Learning via the Lens of Representation ComplexityNeural Information Processing Systems (NeurIPS), 2023

Guhao Feng

Han Zhong

OffRL

311

28 Dec 2023

Conservative Exploration for Policy Optimization via Off-Policy Policy Evaluation

233

24 Dec 2023

Horizon-Free and Instance-Dependent Regret Bounds for Reinforcement Learning with General Function Approximation

217

07 Dec 2023

Learning Adversarial Low-rank Markov Decision Processes with Unknown Transition and Full-information FeedbackNeural Information Processing Systems (NeurIPS), 2023

Canzhe Zhao

Ruofeng Yang

Baoxiang Wang

Xuezhou Zhang

Shuai Li

294

14 Nov 2023

Federated Linear Bandits with Finite Adversarial ActionsNeural Information Processing Systems (NeurIPS), 2023

383

02 Nov 2023

Improved Bayesian Regret Bounds for Thompson Sampling in Reinforcement LearningNeural Information Processing Systems (NeurIPS), 2023

Ahmadreza Moradipari

M. Pedramfar

Modjtaba Shokrian Zini

Vaneet Aggarwal

339

30 Oct 2023

Posterior Sampling with Delayed Feedback for Reinforcement Learning with Linear Function ApproximationNeural Information Processing Systems (NeurIPS), 2023

Nikki Lijing Kuang

Ming Yin

Mengdi Wang

Yu Wang

Yian Ma

364

29 Oct 2023

A Doubly Robust Approach to Sparse Reinforcement LearningInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2023

Wonyoung Hedge Kim

Garud Iyengar

A. Zeevi

245

23 Oct 2023

Value-Biased Maximum Likelihood Estimation for Model-based Reinforcement Learning in Discounted Linear MDPs

220

17 Oct 2023