More Robust Doubly Robust Off-policy Evaluation

10 February 2018

Papers citing "More Robust Doubly Robust Off-policy Evaluation"

50 / 67 papers shown

Title
DOLCE: Decomposing Off-Policy Evaluation/Learning into Lagged and Current Effects Shu Tamano Masanori Nojima OffRL 42 0 0 02 May 2025
Balancing Immediate Revenue and Future Off-Policy Evaluation in Coupon Allocation Naoki Nishimura Ken Kobayashi Kazuhide Nakata OffRL 30 0 0 06 Jul 2024
Cross-Validated Off-Policy Evaluation Matej Cief Branislav Kveton Michal Kompan OffRL 33 1 0 24 May 2024
Optimal Baseline Corrections for Off-Policy Contextual Bandits Shashank Gupta Olivier Jeunen Harrie Oosterhuis Maarten de Rijke 39 7 0 09 May 2024
Hyperparameter Optimization Can Even be Harmful in Off-Policy Learning and How to Deal with It Yuta Saito Masahiro Nomura OffRL 55 2 0 23 Apr 2024
Multiple-policy Evaluation via Density Estimation Yilei Chen Aldo Pacchiano I. Paschalidis OffRL 32 0 0 29 Mar 2024
On the Curses of Future and History in Future-dependent Value Functions for Off-policy Evaluation Yuheng Zhang Nan Jiang OffRL 36 4 0 22 Feb 2024
Bayesian Off-Policy Evaluation and Learning for Large Action Spaces Imad Aouali Victor-Emmanuel Brunel David Rohde Anna Korba OffRL 41 5 0 22 Feb 2024
Off-Policy Evaluation of Slate Bandit Policies via Optimizing Abstraction Haruka Kiyohara Masahiro Nomura Yuta Saito 27 6 0 03 Feb 2024
Conservative Exploration for Policy Optimization via Off-Policy Policy Evaluation Paul Daoudi Mathias Formoso Othman Gaizi Achraf Azize Evrard Garcelon OffRL 31 0 0 24 Dec 2023
Model-based Constrained MDP for Budget Allocation in Sequential Incentive Marketing Shuai Xiao Le Guo Zaifan Jiang Lei Lv Yuanbo Chen Jun Zhu Shuang Yang 30 21 0 02 Mar 2023
Asymptotically Unbiased Off-Policy Policy Evaluation when Reusing Old Data in Nonstationary Environments Vincent Liu Yash Chandak Philip S. Thomas Martha White OffRL 24 0 0 23 Feb 2023
HOPE: Human-Centric Off-Policy Evaluation for E-Learning and Healthcare Ge Gao Song Ju Markel Sanz Ausin Min Chi OffRL 34 8 0 18 Feb 2023
A Reinforcement Learning Framework for Dynamic Mediation Analysis Linjuan Ge Jitao Wang C. Shi Zhanghua Wu Rui Song 31 5 0 31 Jan 2023
Variational Latent Branching Model for Off-Policy Evaluation Qitong Gao Ge Gao Min Chi Miroslav Pajic OffRL 41 6 0 28 Jan 2023
A Review of Off-Policy Evaluation in Reinforcement Learning Masatoshi Uehara C. Shi Nathan Kallus OffRL 46 69 0 13 Dec 2022
Counterfactual Learning with General Data-generating Policies Yusuke Narita Kyohei Okumura Akihiro Shimizu Kohei Yata CML OffRL 29 0 0 04 Dec 2022
Counterfactual Learning with Multioutput Deep Kernels A. Caron G. Baio I. Manolopoulou BDL CML OffRL 25 1 0 20 Nov 2022
When is Realizability Sufficient for Off-Policy Reinforcement Learning? Andrea Zanette OffRL 29 14 0 10 Nov 2022
Local Metric Learning for Off-Policy Evaluation in Contextual Bandits with Continuous Actions Haanvid Lee Jongmin Lee Yunseon Choi Wonseok Jeon Byung-Jun Lee Yung-Kyun Noh Kee-Eung Kim OffRL 14 5 0 24 Oct 2022
Future-Dependent Value-Based Off-Policy Evaluation in POMDPs Masatoshi Uehara Haruka Kiyohara Andrew Bennett Victor Chernozhukov Nan Jiang Nathan Kallus C. Shi Wen Sun OffRL 34 16 0 26 Jul 2022
ResAct: Reinforcing Long-term Engagement in Sequential Recommendation with Residual Actor Wanqi Xue Qingpeng Cai Ruohan Zhan Dong Zheng Peng Jiang Kun Gai Bo An OffRL 38 24 0 01 Jun 2022
Doubly Robust Off-Policy Evaluation for Ranking Policies under the Cascade Behavior Model Haruka Kiyohara Yuta Saito Tatsuya Matsuhiro Yusuke Narita N. Shimizu Yasuo Yamamoto OffRL 26 42 0 03 Feb 2022
Off Environment Evaluation Using Convex Risk Minimization Pulkit Katdare Shuijing Liu Katherine Driggs-Campbell 18 2 0 21 Dec 2021
Off-Policy Evaluation Using Information Borrowing and Context-Based Switching Sutanoy Dasgupta Yabo Niu Kishan Panaganti D. Kalathil D. Pati Bani Mallick OffRL 31 0 0 18 Dec 2021
Robust On-Policy Sampling for Data-Efficient Policy Evaluation in Reinforcement Learning Rujie Zhong Duohan Zhang Lukas Schafer Stefano V. Albrecht Josiah P. Hanna OOD OffRL 15 12 0 29 Nov 2021
False Correlation Reduction for Offline Reinforcement Learning Arvindkumar Krishnakumar Zuyue Fu Lingxiao Wang Zhuoran Yang Chenjia Bai Tianyi Zhou Judy Hoffman Jing Jiang OffRL 39 9 0 24 Oct 2021
Towards optimized actions in critical situations of soccer games with deep reinforcement learning Pegah Rahimian Afshin Oroojlooy László Toka 23 5 0 14 Sep 2021
State Relevance for Off-Policy Evaluation S. Shen Yecheng Ma Omer Gottesman Finale Doshi-Velez OffRL 16 4 0 13 Sep 2021
Provable Benefits of Actor-Critic Methods for Offline Reinforcement Learning Andrea Zanette Martin J. Wainwright Emma Brunskill OffRL 34 115 0 19 Aug 2021
Supervised Off-Policy Ranking Yue Jin Yue Zhang Tao Qin Xudong Zhang Jian Yuan Houqiang Li Tie-Yan Liu OffRL 37 5 0 03 Jul 2021
Variance-Aware Off-Policy Evaluation with Linear Function Approximation Yifei Min Tianhao Wang Dongruo Zhou Quanquan Gu OffRL 42 38 0 22 Jun 2021
On Instrumental Variable Regression for Deep Offline Policy Evaluation Yutian Chen Liyuan Xu Çağlar Gülçehre T. Paine Arthur Gretton Nando de Freitas Arnaud Doucet OffRL 56 18 0 21 May 2021
Identity Concealment Games: How I Learned to Stop Revealing and Love the Coincidences Mustafa O. Karabag Melkior Ornik Ufuk Topcu 44 3 0 12 May 2021
Deeply-Debiased Off-Policy Interval Estimation C. Shi Runzhe Wan Victor Chernozhukov R. Song OffRL 30 36 0 10 May 2021
Sample Complexity of Offline Reinforcement Learning with Deep ReLU Networks Thanh Nguyen-Tang Sunil R. Gupta Hung The Tran Svetha Venkatesh OffRL 70 7 0 11 Mar 2021
Instabilities of Offline RL with Pre-Trained Neural Representation Ruosong Wang Yifan Wu Ruslan Salakhutdinov Sham Kakade OffRL 24 42 0 08 Mar 2021
Is Pessimism Provably Efficient for Offline RL? Ying Jin Zhuoran Yang Zhaoran Wang OffRL 27 350 0 30 Dec 2020
Human-centric Dialog Training via Offline Reinforcement Learning Natasha Jaques J. Shen Asma Ghandeharioun Craig Ferguson Àgata Lapedriza Noah J. Jones S. Gu Rosalind W. Picard OffRL 40 93 0 12 Oct 2020
Open Bandit Dataset and Pipeline: Towards Realistic and Reproducible Off-Policy Evaluation Yuta Saito Shunsuke Aihara Megumi Matsutani Yusuke Narita OffRL 24 73 0 17 Aug 2020
Reducing Sampling Error in Batch Temporal Difference Learning Brahma S. Pavse Ishan Durugkar Josiah P. Hanna Peter Stone OffRL 25 12 0 15 Aug 2020
Hyperparameter Selection for Offline Reinforcement Learning T. Paine Cosmin Paduraru Andrea Michi Çağlar Gülçehre Konrad Zolna Alexander Novikov Ziyun Wang Nando de Freitas GP OffRL 49 146 0 17 Jul 2020
Near-Optimal Provable Uniform Convergence in Offline Policy Evaluation for Reinforcement Learning Ming Yin Yu Bai Yu Wang OffRL 44 31 0 07 Jul 2020
Off-policy Bandits with Deficient Support Noveen Sachdeva Yi-Hsun Su Thorsten Joachims OffRL 38 75 0 16 Jun 2020
Self-Imitation Learning via Generalized Lower Bound Q-learning Yunhao Tang SSL 33 24 0 12 Jun 2020
Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic Policies Nathan Kallus Masatoshi Uehara OffRL 16 15 0 06 Jun 2020
Black-box Off-policy Estimation for Infinite-Horizon Reinforcement Learning Ali Mousavi Lihong Li Qiang Liu Denny Zhou OffRL 29 32 0 24 Mar 2020
Asymptotically Efficient Off-Policy Evaluation for Tabular Reinforcement Learning Ming Yin Yu Wang OffRL 29 80 0 29 Jan 2020
Off-Policy Estimation of Long-Term Average Outcomes with Applications to Mobile Health Peng Liao P. Klasnja Susan Murphy OffRL 27 66 0 30 Dec 2019
Empirical Study of Off-Policy Policy Evaluation for Reinforcement Learning Cameron Voloshin Hoang Minh Le Nan Jiang Yisong Yue OffRL 35 152 0 15 Nov 2019