Normal Bandits of Unknown Means and Variances: Asymptotic Optimality, Finite Horizon Regret Bounds, and a Solution to an Open Problem

22 April 2015

Papers citing "Normal Bandits of Unknown Means and Variances: Asymptotic Optimality, Finite Horizon Regret Bounds, and a Solution to an Open Problem"

8 / 8 papers shown

Title
Asymptotic Behavior of Minimal-Exploration Allocation Policies: Almost Sure, Arbitrarily Slow Growing Regret Wesley Cowan M. Katehakis 106 14 0 12 May 2015
An Asymptotically Optimal Policy for Uniform Bandits of Unknown Support Wesley Cowan M. Katehakis 112 27 0 08 May 2015
On Minimax Optimal Offline Policy Evaluation Lihong Li Rémi Munos Csaba Szepesvári OffRL 53 16 0 12 Sep 2014
Near-optimal Reinforcement Learning in Factored MDPs Ian Osband Benjamin Van Roy 69 121 0 15 Mar 2014
Optimality of Thompson Sampling for Gaussian Bandits Depends on Priors Junya Honda Akimichi Takemura 49 63 0 08 Nov 2013
Kullback-Leibler upper confidence bounds for optimal sequential allocation Olivier Cappé Aurélien Garivier Odalric-Ambrym Maillard Rémi Munos Gilles Stoltz 96 394 0 03 Oct 2012
REGAL: A Regularization based Algorithm for Reinforcement Learning in Weakly Communicating MDPs Peter L. Bartlett Ambuj Tewari 76 280 0 09 May 2012
An Asymptotically Optimal Policy for Finite Support Models in the Multiarmed Bandit Problem Junya Honda Akimichi Takemura 99 121 0 17 May 2009