Statistical Inference on Multi-armed Bandits with Delayed Feedback

3 July 2023

Papers citing "Statistical Inference on Multi-armed Bandits with Delayed Feedback"

2 / 2 papers shown

Title
Near-Optimal Regret for Adversarial MDP with Delayed Bandit Feedback Tiancheng Jin Tal Lancewicki Haipeng Luo Yishay Mansour Aviv A. Rosenberg 66 21 0 31 Jan 2022
Online Bootstrap Inference For Policy Evaluation in Reinforcement Learning Pratik Ramprasad Yuantong Li Zhuoran Yang Zhaoran Wang W. Sun Guang Cheng OffRL 50 26 0 08 Aug 2021