On Limited-Memory Subsampling Strategies for Bandits

21 June 2021

Papers citing "On Limited-Memory Subsampling Strategies for Bandits"

7 / 7 papers shown

Title
Garbage In, Reward Out: Bootstrapping Exploration in Multi-Armed Bandits Branislav Kveton Csaba Szepesvári Sharan Vaswani Zheng Wen Mohammad Ghavamzadeh Tor Lattimore 97 70 0 13 Nov 2018
Nearly Optimal Adaptive Procedure with Change Detection for Piecewise-Stationary Bandit Yang Cao Zheng Wen Branislav Kveton Yao Xie 39 94 0 11 Feb 2018
A Change-Detection based Framework for Piecewise-stationary Multi-Armed Bandit Problem Fang Liu Joohyung Lee Ness B. Shroff 43 115 0 08 Nov 2017
Taming Non-stationary Bandits: A Bayesian Approach Vishnu Raj Sheetal Kalyani 105 76 0 31 Jul 2017
Kullback-Leibler upper confidence bounds for optimal sequential allocation Olivier Cappé Aurélien Garivier Odalric-Ambrym Maillard Rémi Munos Gilles Stoltz 91 394 0 03 Oct 2012
Thompson Sampling: An Asymptotically Optimal Finite Time Analysis E. Kaufmann N. Korda Rémi Munos 114 585 0 18 May 2012
Unbiased Offline Evaluation of Contextual-bandit-based News Article Recommendation Algorithms Lihong Li Wei Chu John Langford Xuanhui Wang OffRL 161 574 0 31 Mar 2010