Towards Assessing and Benchmarking Risk-Return Tradeoff of Off-Policy
Evaluation

v1v2v3 (latest)

Towards Assessing and Benchmarking Risk-Return Tradeoff of Off-Policy Evaluation

International Conference on Learning Representations (ICLR), 2023

30 November 2023

Haruka Kiyohara

Kazuhide Nakata

ArXiv (abs)PDF HTML Github (122★)

Papers citing "Towards Assessing and Benchmarking Risk-Return Tradeoff of Off-Policy Evaluation"

12 / 12 papers shown

Title
Diversification as Risk Minimization Rikiya Takehi Fernando Diaz Tetsuya Sakai AAML 77 0 0 26 Oct 2025
Evaluation-Aware Reinforcement Learning Shripad Deshmukh Will Schwarzer S. Niekum OffRL 106 0 0 23 Sep 2025
DOLCE: Decomposing Off-Policy Evaluation/Learning into Lagged and Current Effects Shu Tamano Masanori Nojima OffRL 380 0 0 02 May 2025
Prompt Optimization with Logged Bandit Data Haruka Kiyohara Daniel Yiming Cao Yuta Saito Thorsten Joachims 382 0 0 03 Apr 2025
Effective Off-Policy Evaluation and Learning in Contextual Combinatorial BanditsACM Conference on Recommender Systems (RecSys), 2024 Tatsuhiro Shimizu Koichi Tanaka Ren Kishimoto Haruka Kiyohara Masahiro Nomura Yuta Saito CML OffRL 225 6 0 20 Aug 2024
Balancing Immediate Revenue and Future Off-Policy Evaluation in Coupon Allocation Naoki Nishimura Ken Kobayashi Kazuhide Nakata OffRL 126 0 0 06 Jul 2024
Long-term Off-Policy Evaluation and Learning Yuta Saito Himan Abdollahpouri Jesse Anderton Ben Carterette M. Lalmas OffRL 199 12 0 24 Apr 2024
Hyperparameter Optimization Can Even be Harmful in Off-Policy Learning and How to Deal with It Yuta Saito Masahiro Nomura OffRL 223 4 0 23 Apr 2024
POTEC: Off-Policy Learning for Large Action Spaces via Two-Stage Policy Decomposition Yuta Saito Jihan Yao Thorsten Joachims OffRL 229 11 0 09 Feb 2024
Off-Policy Evaluation of Slate Bandit Policies via Optimizing Abstraction Haruka Kiyohara Masahiro Nomura Yuta Saito 453 12 0 03 Feb 2024
SCOPE-RL: A Python Library for Offline Reinforcement Learning and Off-Policy Evaluation Haruka Kiyohara Ren Kishimoto K. Kawakami Ken Kobayashi Kazuhide Nakata Yuta Saito OffRL ELM 408 5 0 30 Nov 2023
Open Bandit Dataset and Pipeline: Towards Realistic and Reproducible Off-Policy Evaluation Yuta Saito Shunsuke Aihara Megumi Matsutani Yusuke Narita OffRL 575 87 0 17 Aug 2020