Universal Off-Policy Evaluation

26 April 2021

Papers citing "Universal Off-Policy Evaluation"

41 / 41 papers shown

Title
Counterfactual Inference under Thompson Sampling Olivier Jeunen OffRL LRM 27 0 0 03 Apr 2025
Rule-Guided Reinforcement Learning Policy Evaluation and Improvement Martin Tappler Ignacio D. Lopez-Miguel Sebastian Tschiatschek Ezio Bartocci 59 0 0 13 Mar 2025
Two-way Deconfounder for Off-policy Evaluation in Causal Reinforcement Learning Shuguang Yu Shuxing Fang Ruixin Peng Zhengling Qi Fan Zhou C. Shi CML OffRL 67 1 0 08 Dec 2024
Test Where Decisions Matter: Importance-driven Testing for Deep Reinforcement Learning Stefan Pranger Hana Chockler Martin Tappler Bettina Könighofer OffRL 25 0 0 12 Nov 2024
Off-Policy Evaluation in Markov Decision Processes under Weak Distributional Overlap Mohammad Mehrabi Stefan Wager OffRL 18 14 0 13 Feb 2024
Conservative Exploration for Policy Optimization via Off-Policy Policy Evaluation Paul Daoudi Mathias Formoso Othman Gaizi Achraf Azize Evrard Garcelon OffRL 6 0 0 24 Dec 2023
Probabilistic Offline Policy Ranking with Approximate Bayesian Computation Longchao Da P. Jenkins Trevor Schwantes Jeffrey Dotson Hua Wei OffRL 17 2 0 17 Dec 2023
SCOPE-RL: A Python Library for Offline Reinforcement Learning and Off-Policy Evaluation Haruka Kiyohara Ren Kishimoto K. Kawakami Ken Kobayashi Kazuhide Nakata Yuta Saito OffRL ELM 13 4 0 30 Nov 2023
Estimation and Inference in Distributional Reinforcement Learning Liangyu Zhang Yang Peng Jiadong Liang Wenhao Yang Zhihua Zhang OffRL 13 1 0 29 Sep 2023
Distributional Off-Policy Evaluation for Slate Recommendations Shreyas Chaudhari David Arbour Georgios Theocharous N. Vlassis OffRL 20 0 0 27 Aug 2023
A new Gradient TD Algorithm with only One Step-size: Convergence Rate Analysis using $L$ - $λ$ Smoothness Hengshuai Yao 16 2 0 29 Jul 2023
A Distribution Optimization Framework for Confidence Bounds of Risk Measures Hao Liang Zhimin Luo 14 2 0 12 Jun 2023
Time-uniform confidence bands for the CDF under nonstationarity Paul Mineiro Steven R. Howard 8 1 0 28 Feb 2023
Asymptotically Unbiased Off-Policy Policy Evaluation when Reusing Old Data in Nonstationary Environments Vincent Liu Yash Chandak Philip S. Thomas Martha White OffRL 9 0 0 23 Feb 2023
Distributional Offline Policy Evaluation with Predictive Error Guarantees Runzhe Wu Masatoshi Uehara Wen Sun OffRL 16 13 0 19 Feb 2023
HOPE: Human-Centric Off-Policy Evaluation for E-Learning and Healthcare Ge Gao Song Ju Markel Sanz Ausin Min Chi OffRL 19 8 0 18 Feb 2023
Off-Policy Evaluation for Action-Dependent Non-Stationary Environments Yash Chandak Shiv Shankar Nathaniel D. Bastian Bruno Castro da Silva Emma Brunskil Philip S. Thomas OffRL 8 6 0 24 Jan 2023
Off-Policy Evaluation with Out-of-Sample Guarantees Sofia Ek Dave Zachariah Fredrik D. Johansson Petre Stoica CML OffRL 13 4 0 20 Jan 2023
Quantile Risk Control: A Flexible Framework for Bounding the Probability of High-Loss Predictions Jake C. Snell Thomas P. Zollo Zhun Deng T. Pitassi R. Zemel 13 8 0 27 Dec 2022
Bayesian Counterfactual Mean Embeddings and Off-Policy Evaluation Diego Martinez-Taboada Dino Sejdinovic CML OffRL 11 0 0 02 Nov 2022
Anytime-valid off-policy inference for contextual bandits Ian Waudby-Smith Lili Wu Aaditya Ramdas Nikos Karampatziakis Paul Mineiro OffRL 31 25 0 19 Oct 2022
A Reinforcement Learning Approach to Estimating Long-term Treatment Effects Ziyang Tang Yiheng Duan Stephanie S. Zhang Lihong Li OffRL 9 4 0 14 Oct 2022
Opportunities and Challenges from Using Animal Videos in Reinforcement Learning for Navigation Vittorio Giammarino James Queeney Lucas C. Carstensen Michael Hasselmo I. Paschalidis OffRL 27 4 0 25 Sep 2022
Off-Policy Risk Assessment in Markov Decision Processes Audrey Huang Liu Leqi Zachary Chase Lipton Kamyar Azizzadenesheli OffRL 8 8 0 21 Sep 2022
On the Reuse Bias in Off-Policy Reinforcement Learning Chengyang Ying Zhongkai Hao Xinning Zhou Hang Su Dong Yan Jun Zhu OffRL 24 3 0 15 Sep 2022
Enforcing Delayed-Impact Fairness Guarantees Aline Weber Blossom Metevier Yuriy Brun Philip S. Thomas Bruno Castro da Silva FaML 6 9 0 24 Aug 2022
The Nature of Temporal Difference Errors in Multi-step Distributional Reinforcement Learning Yunhao Tang Mark Rowland Rémi Munos Bernardo Avila-Pires Will Dabney Marc G. Bellemare OffRL 11 11 0 15 Jul 2022
Conformal Off-policy Prediction Yingying Zhang C. Shi S. Luo OffRL 17 9 0 14 Jun 2022
Conformal Off-Policy Prediction in Contextual Bandits Muhammad Faaiz Taufiq Jean-François Ton R. Cornish Yee Whye Teh Arnaud Doucet OffRL 9 22 0 09 Jun 2022
Off-Policy Evaluation with Policy-Dependent Optimization Response Wenshuo Guo Michael I. Jordan Angela Zhou CML OffRL 6 3 0 25 Feb 2022
ESCADA: Efficient Safety and Context Aware Dose Allocation for Precision Medicine Ilker Demirel Ahmet Çelik Cem Tekin 18 4 0 26 Nov 2021
SOPE: Spectrum of Off-Policy Estimators C. J. Yuan Yash Chandak S. Giguere Philip S. Thomas S. Niekum OffRL 26 5 0 06 Nov 2021
Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in Partially Observed Markov Decision Processes Andrew Bennett Nathan Kallus OffRL 19 40 0 28 Oct 2021
Estimating Potential Outcome Distributions with Collaborating Causal Networks Tianhui Zhou William E Carson IV David Carlson CML 27 6 0 04 Oct 2021
Reimagining an autonomous vehicle Jeffrey Hawke E. Haibo Vijay Badrinarayanan Alex Kendall 18 11 0 12 Aug 2021
A Unified Off-Policy Evaluation Approach for General Value Function Tengyu Xu Zhuoran Yang Zhaoran Wang Yingbin Liang OffRL 8 2 0 06 Jul 2021
An Offline Risk-aware Policy Selection Method for Bayesian Markov Decision Processes Giorgio Angelotti Nicolas Drougard Caroline Ponzoni Carvalho Chanel OffRL 11 0 0 27 May 2021
Off-Policy Risk Assessment in Contextual Bandits Audrey Huang Liu Leqi Zachary Chase Lipton Kamyar Azizzadenesheli OffRL 9 36 0 18 Apr 2021
Towards Continual Reinforcement Learning: A Review and Perspectives Khimya Khetarpal Matthew D Riemer Irina Rish Doina Precup CLL OffRL 12 305 0 25 Dec 2020
Towards Safe Policy Improvement for Non-Stationary MDPs Yash Chandak Scott M. Jordan Georgios Theocharous Martha White Philip S. Thomas OffRL 41 32 0 23 Oct 2020
Double Reinforcement Learning for Efficient Off-Policy Evaluation in Markov Decision Processes Nathan Kallus Masatoshi Uehara OffRL 31 180 0 22 Aug 2019