Policy Optimization in Adversarial MDPs: Improved Exploration via Dilated Bonuses

18 July 2021

Papers citing "Policy Optimization in Adversarial MDPs: Improved Exploration via Dilated Bonuses"

10 / 10 papers shown

Title
Decision Making in Hybrid Environments: A Model Aggregation Approach Haolin Liu Chen-Yu Wei Julian Zimmert 83 0 0 09 Feb 2025
Narrowing the Gap between Adversarial and Stochastic MDPs via Policy Optimization D. Tiapkin Evgenii Chzhen Gilles Stoltz 74 0 0 08 Jul 2024
Near-Optimal Regret in Linear MDPs with Aggregate Bandit Feedback Asaf B. Cassel Haipeng Luo Aviv A. Rosenberg Dmitry Sotnikov OffRL 29 3 0 13 May 2024
Imitation Learning in Discounted Linear MDPs without exploration assumptions Luca Viano Stratis Skoulakis V. Cevher 30 3 0 03 May 2024
LC-Tsallis-INF: Generalized Best-of-Both-Worlds Linear Contextual Bandits Masahiro Kato Shinji Ito 34 0 0 05 Mar 2024
Refined Sample Complexity for Markov Games with Independent Linear Function Approximation Yan Dai Qiwen Cui S. S. Du 35 1 0 11 Feb 2024
Improved Regret for Efficient Online Reinforcement Learning with Linear Function Approximation Uri Sherman Tomer Koren Yishay Mansour 18 12 0 30 Jan 2023
Corruption-Robust Algorithms with Uncertainty Weighting for Nonlinear Contextual Bandits and Markov Decision Processes Chen Ye Wei Xiong Quanquan Gu Tong Zhang 10 29 0 12 Dec 2022
Nearly Optimal Policy Optimization with Stable at Any Time Guarantee Tianhao Wu Yunchang Yang Han Zhong Liwei Wang S. Du Jiantao Jiao 27 14 0 21 Dec 2021
Model-free Reinforcement Learning in Infinite-horizon Average-reward Markov Decision Processes Chen-Yu Wei Mehdi Jafarnia-Jahromi Haipeng Luo Hiteshi Sharma R. Jain 103 99 0 15 Oct 2019