Off-policy Bandits with Deficient Support

Off-policy Bandits with Deficient Support

16 June 2020

Noveen Sachdeva

Thorsten Joachims

Papers citing "Off-policy Bandits with Deficient Support"

18 / 18 papers shown

Title
DOLCE: Decomposing Off-Policy Evaluation/Learning into Lagged and Current Effects Shu Tamano Masanori Nojima OffRL 37 0 0 02 May 2025
Prompt Optimization with Logged Bandit Data Haruka Kiyohara Daniel Yiming Cao Yuta Saito Thorsten Joachims 64 0 0 03 Apr 2025
Bayesian Off-Policy Evaluation and Learning for Large Action Spaces Imad Aouali Victor-Emmanuel Brunel David Rohde Anna Korba OffRL 36 5 0 22 Feb 2024
A General Offline Reinforcement Learning Framework for Interactive Recommendation Teng Xiao Donglin Wang OffRL 34 73 0 01 Oct 2023
On (Normalised) Discounted Cumulative Gain as an Off-Policy Evaluation Metric for Top- $n$ Recommendation Olivier Jeunen Ivan Potapov Aleksei Ustimenko ELM OffRL 27 11 0 27 Jul 2023
Balanced Off-Policy Evaluation for Personalized Pricing Adam N. Elmachtoub Vishal Gupta Yunfan Zhao OffRL 37 6 0 24 Feb 2023
Sequential Counterfactual Risk Minimization Houssam Zenati Eustache Diemert Matthieu Martin Julien Mairal Pierre Gaillard OffRL 29 3 0 23 Feb 2023
Data Distillation: A Survey Noveen Sachdeva Julian McAuley DD 45 73 0 11 Jan 2023
Counterfactual Learning with General Data-generating Policies Yusuke Narita Kyohei Okumura Akihiro Shimizu Kohei Yata CML OffRL 17 0 0 04 Dec 2022
Inverse Propensity Score based offline estimator for deterministic ranking lists using position bias Nick Wood Sumit Sidana OffRL 14 0 0 31 Aug 2022
Offline Policy Optimization with Eligible Actions Yao Liu Yannis Flet-Berliac Emma Brunskill OffRL 25 5 0 01 Jul 2022
Infinite Recommendation Networks: A Data-Centric Approach Noveen Sachdeva Mehak Preet Dhaliwal Carole-Jean Wu Julian McAuley DD 33 28 0 03 Jun 2022
Scalable and Robust Self-Learning for Skill Routing in Large-Scale Conversational AI Systems Mohammad Kachuee Jinseok Nam Sarthak Ahuja J. Won Sungjin Lee 31 5 0 14 Apr 2022
Safe Exploration for Efficient Policy Evaluation and Comparison Runzhe Wan B. Kveton Rui Song OffRL 34 10 0 26 Feb 2022
On Sampling Collaborative Filtering Datasets Noveen Sachdeva Carole-Jean Wu Julian McAuley 29 16 0 13 Jan 2022
Enhancing Counterfactual Classification via Self-Training Ruijiang Gao Max Biggs Wei-Ju Sun Ligong Han CML OffRL 32 6 0 08 Dec 2021
Loss Functions for Discrete Contextual Pricing with Observational Data Max Biggs Ruijiang Gao Wei-Ju Sun 31 10 0 18 Nov 2021
Policy Learning with Adaptively Collected Data Ruohan Zhan Zhimei Ren Susan Athey Zhengyuan Zhou OffRL 42 27 0 05 May 2021