Off-Policy Evaluation of Slate Bandit Policies via Optimizing Abstraction

3 February 2024

Papers citing "Off-Policy Evaluation of Slate Bandit Policies via Optimizing Abstraction"

6 / 6 papers shown

Title
Effective Off-Policy Evaluation and Learning in Contextual Combinatorial Bandits Tatsuhiro Shimizu Koichi Tanaka Ren Kishimoto Haruka Kiyohara Masahiro Nomura Yuta Saito CML OffRL 39 0 0 20 Aug 2024
Long-term Off-Policy Evaluation and Learning Yuta Saito Himan Abdollahpouri Jesse Anderton Ben Carterette M. Lalmas OffRL 29 5 0 24 Apr 2024
Hyperparameter Optimization Can Even be Harmful in Off-Policy Learning and How to Deal with It Yuta Saito Masahiro Nomura OffRL 44 2 0 23 Apr 2024
POTEC: Off-Policy Learning for Large Action Spaces via Two-Stage Policy Decomposition Yuta Saito Jihan Yao Thorsten Joachims OffRL 24 6 0 09 Feb 2024
SCOPE-RL: A Python Library for Offline Reinforcement Learning and Off-Policy Evaluation Haruka Kiyohara Ren Kishimoto K. Kawakami Ken Kobayashi Kazuhide Nakata Yuta Saito OffRL ELM 34 4 0 30 Nov 2023
Counterfactual Evaluation of Slate Recommendations with Sequential Reward Interactions James McInerney B. Brost Praveen Chandar Rishabh Mehrotra Ben Carterette BDL CML OffRL 115 55 0 25 Jul 2020