Variance-Optimal Augmentation Logging for Counterfactual Evaluation in Contextual Bandits

3 February 2022

Papers citing "Variance-Optimal Augmentation Logging for Counterfactual Evaluation in Contextual Bandits"

6 / 6 papers shown

Title
SaVeR: Optimal Data Collection Strategy for Safe Policy Evaluation in Tabular MDP Subhojyoti Mukherjee Josiah P. Hanna Robert Nowak OffRL 100 0 0 04 Jun 2024
When is Off-Policy Evaluation Useful? A Data-Centric Perspective Hao Sun Alex J. Chan Nabeel Seedat Alihan Huyuk M. Schaar ELM OffRL 60 0 0 23 Nov 2023
On-Policy Policy Gradient Reinforcement Learning Without On-Policy Sampling Nicholas Corrado Josiah P. Hanna OffRL 62 2 0 14 Nov 2023
SPEED: Experimental Design for Policy Evaluation in Linear Heteroscedastic Bandits Subhojyoti Mukherjee Qiaomin Xie Josiah P. Hanna R. Nowak OffRL 108 5 0 29 Jan 2023
Safe Exploration for Efficient Policy Evaluation and Comparison Runzhe Wan Branislav Kveton Rui Song OffRL 82 14 0 26 Feb 2022
Robust On-Policy Sampling for Data-Efficient Policy Evaluation in Reinforcement Learning Rujie Zhong Duohan Zhang Lukas Schafer Stefano V. Albrecht Josiah P. Hanna OOD OffRL 87 14 0 29 Nov 2021