Near-Optimal Regret for Adversarial MDP with Delayed Bandit Feedback

31 January 2022

Papers citing "Near-Optimal Regret for Adversarial MDP with Delayed Bandit Feedback"

3 / 3 papers shown

Title
Cooperative Online Learning in Stochastic and Adversarial MDPs Tal Lancewicki Aviv A. Rosenberg Yishay Mansour 43 2 0 31 Jan 2022
Nonstochastic Bandits with Composite Anonymous Feedback Nicolò Cesa-Bianchi Tommaso Cesari Roberto Colomboni Claudio Gentile Yishay Mansour 53 38 0 06 Dec 2021
Near-optimal Policy Optimization Algorithms for Learning Adversarial Linear Mixture MDPs Jiafan He Dongruo Zhou Quanquan Gu 67 20 0 17 Feb 2021