Oracle-Efficient Pessimism: Offline Policy Optimization in Contextual Bandits

13 June 2023

Papers citing "Oracle-Efficient Pessimism: Offline Policy Optimization in Contextual Bandits"

4 / 4 papers shown

Title
Bayesian Off-Policy Evaluation and Learning for Large Action Spaces Imad Aouali Victor-Emmanuel Brunel David Rohde Anna Korba OffRL 26 5 0 22 Feb 2024
Optimal Conservative Offline RL with General Function Approximation via Augmented Lagrangian Paria Rashidinejad Hanlin Zhu Kunhe Yang Stuart J. Russell Jiantao Jiao OffRL 33 26 0 01 Nov 2022
Pessimistic Model-based Offline Reinforcement Learning under Partial Coverage Masatoshi Uehara Wen Sun OffRL 91 144 0 13 Jul 2021
Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems Sergey Levine Aviral Kumar George Tucker Justin Fu OffRL GP 329 1,944 0 04 May 2020