Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement Learning

11 February 2020

Papers citing "Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement Learning"

14 / 14 papers shown

Title
Reinforcement Learning with Continuous Actions Under Unmeasured Confounding Yuhan Li Eugene Han Yifan Hu Wenzhuo Zhou Zhengling Qi Yifan Cui Ruoqing Zhu OffRL 138 0 0 01 May 2025
Quantile Off-Policy Evaluation via Deep Conditional Generative Learning Yang Xu C. Shi S. Luo Lan Wang R. Song OffRL 27 4 0 29 Dec 2022
Offline Reinforcement Learning for Human-Guided Human-Machine Interaction with Private Information Zuyue Fu Zhengling Qi Zhuoran Yang Zhaoran Wang Lan Wang OffRL 18 0 0 23 Dec 2022
Offline Policy Evaluation and Optimization under Confounding Chinmaya Kausik Yangyi Lu Kevin Tan Maggie Makar Yixin Wang Ambuj Tewari OffRL 18 8 0 29 Nov 2022
Off-Policy Evaluation for Episodic Partially Observable Markov Decision Processes under Non-Parametric Models Rui Miao Zhengling Qi Xiaoke Zhang OffRL 24 10 0 21 Sep 2022
Pessimism in the Face of Confounders: Provably Efficient Offline Reinforcement Learning in Partially Observable Markov Decision Processes Miao Lu Yifei Min Zhaoran Wang Zhuoran Yang OffRL 49 22 0 26 May 2022
Model-Free and Model-Based Policy Evaluation when Causality is Uncertain David Bruns-Smith CML ELM OffRL 22 12 0 02 Apr 2022
Stochastic Causal Programming for Bounding Treatment Effects Kirtan Padh Jakob Zeitler David S. Watson Matt J. Kusner Ricardo M. A. Silva Niki Kilbertus CML 25 26 0 22 Feb 2022
Off-Policy Confidence Interval Estimation with Confounded Markov Decision Process C. Shi Jin Zhu Ye Shen S. Luo Hong Zhu R. Song OffRL 23 30 0 22 Feb 2022
Partial Counterfactual Identification from Observational and Experimental Data Junzhe Zhang Jin Tian Elias Bareinboim 18 60 0 12 Oct 2021
Universal Off-Policy Evaluation Yash Chandak S. Niekum Bruno C. da Silva Erik Learned-Miller Emma Brunskill Philip S. Thomas OffRL ELM 30 52 0 26 Apr 2021
Estimating and Improving Dynamic Treatment Regimes With a Time-Varying Instrumental Variable Shuxiao Chen B. Zhang 22 19 0 15 Apr 2021
Instrumental Variable Value Iteration for Causal Offline Reinforcement Learning Luofeng Liao Zuyue Fu Zhuoran Yang Yixin Wang Mladen Kolar Zhaoran Wang OffRL 18 33 0 19 Feb 2021
Off-policy Evaluation in Infinite-Horizon Reinforcement Learning with Latent Confounders Andrew Bennett Nathan Kallus Lihong Li Ali Mousavi OffRL 18 43 0 27 Jul 2020