Sublinear Optimal Policy Value Estimation in Contextual Bandits

v1v2 (latest)

Sublinear Optimal Policy Value Estimation in Contextual Bandits

12 December 2019

Gregory Valiant

ArXiv (abs)PDF HTML

Papers citing "Sublinear Optimal Policy Value Estimation in Contextual Bandits"

8 / 8 papers shown

Title
Estimating Optimal Policy Value in General Linear Contextual Bandits Jonathan Lee Weihao Kong Aldo Pacchiano Vidya Muthukumar Emma Brunskill 56 0 0 19 Feb 2023
Bounded (O(1)) Regret Recommendation Learning via Synthetic Controls Oracle Hyunwook Kang P. R. Kumar OffRL 79 1 0 29 Jan 2023
A Query-Optimal Algorithm for Finding Counterfactuals Guy Blanc Caleb M. Koch Jane Lange Li-Yang Tan 76 5 0 14 Jul 2022
Online Model Selection for Reinforcement Learning with Function Approximation Jonathan Lee Aldo Pacchiano Vidya Muthukumar Weihao Kong Emma Brunskill OffRL 63 37 0 19 Nov 2020
Estimating decision tree learnability with polylogarithmic sample complexity Guy Blanc Neha Gupta Jane Lange Li-Yang Tan TPM 36 5 0 03 Nov 2020
Robust Meta-learning for Mixed Linear Regression with Small Batches Weihao Kong Raghav Somani Sham Kakade Sewoong Oh OOD 86 35 0 17 Jun 2020
Profile Entropy: A Fundamental Measure for the Learnability and Compressibility of Discrete Distributions Yi Hao A. Orlitsky 46 11 0 26 Feb 2020
Meta-learning for mixed linear regression Weihao Kong Raghav Somani Zhao Song Sham Kakade Sewoong Oh 80 67 0 20 Feb 2020