Off-Policy Evaluation in Partially Observable Environments

9 September 2019

Papers citing "Off-Policy Evaluation in Partially Observable Environments"

31 / 31 papers shown

Title
Automatic Reward Shaping from Confounded Offline Data Mingxuan Li Junzhe Zhang Elias Bareinboim OffRL OnRL 33 0 0 16 May 2025
Benchmarks for Reinforcement Learning with Biased Offline Data and Imperfect Simulators Ori Linial Guy Tennenholtz Uri Shalit OffRL 48 1 0 30 Jun 2024
On the Curses of Future and History in Future-dependent Value Functions for Off-policy Evaluation Yuheng Zhang Nan Jiang OffRL 29 4 0 22 Feb 2024
Finding Counterfactually Optimal Action Sequences in Continuous State Spaces Stratis Tsirtsis Manuel Gomez Rodriguez CML OffRL 35 9 0 06 Jun 2023
HOPE: Human-Centric Off-Policy Evaluation for E-Learning and Healthcare Ge Gao Song Ju Markel Sanz Ausin Min Chi OffRL 29 8 0 18 Feb 2023
Off-Policy Evaluation for Action-Dependent Non-Stationary Environments Yash Chandak Shiv Shankar Nathaniel D. Bastian Bruno Castro da Silva Emma Brunskil Philip S. Thomas OffRL 52 6 0 24 Jan 2023
Safe Policy Improvement for POMDPs via Finite-State Controllers T. D. Simão Marnix Suilen N. Jansen OffRL 34 9 0 12 Jan 2023
A Review of Off-Policy Evaluation in Reinforcement Learning Masatoshi Uehara C. Shi Nathan Kallus OffRL 38 69 0 13 Dec 2022
Offline Policy Evaluation and Optimization under Confounding Chinmaya Kausik Yangyi Lu Kevin Tan Maggie Makar Yixin Wang Ambuj Tewari OffRL 26 8 0 29 Nov 2022
Causal Deep Reinforcement Learning Using Observational Data Wenxuan Zhu Chao Yu Qiaosheng Zhang CML OffRL 26 5 0 28 Nov 2022
Off-Policy Evaluation for Episodic Partially Observable Markov Decision Processes under Non-Parametric Models Rui Miao Zhengling Qi Xiaoke Zhang OffRL 30 10 0 21 Sep 2022
Statistical Estimation of Confounded Linear MDPs: An Instrumental Variable Approach Miao Lu Wenhao Yang Liangyu Zhang Zhihua Zhang OffRL 40 1 0 12 Sep 2022
Strategic Decision-Making in the Presence of Information Asymmetry: Provably Efficient RL with Algorithmic Instruments Mengxin Yu Zhuoran Yang Jianqing Fan OffRL 21 8 0 23 Aug 2022
Future-Dependent Value-Based Off-Policy Evaluation in POMDPs Masatoshi Uehara Haruka Kiyohara Andrew Bennett Victor Chernozhukov Nan Jiang Nathan Kallus C. Shi Wen Sun OffRL 31 16 0 26 Jul 2022
Provably Efficient Reinforcement Learning in Partially Observable Dynamical Systems Masatoshi Uehara Ayush Sekhari Jason D. Lee Nathan Kallus Wen Sun OffRL 51 32 0 24 Jun 2022
Pessimism in the Face of Confounders: Provably Efficient Offline Reinforcement Learning in Partially Observable Markov Decision Processes Miao Lu Yifei Min Zhaoran Wang Zhuoran Yang OffRL 57 22 0 26 May 2022
Model-Free and Model-Based Policy Evaluation when Causality is Uncertain David Bruns-Smith CML ELM OffRL 24 12 0 02 Apr 2022
Off-Policy Confidence Interval Estimation with Confounded Markov Decision Process C. Shi Jin Zhu Ye Shen Shuang Luo Hong Zhu R. Song OffRL 31 30 0 22 Feb 2022
Off-Policy Evaluation in Partially Observed Markov Decision Processes under Sequential Ignorability Yupeng Tang Seung-seob Lee OffRL 52 22 0 24 Oct 2021
On Covariate Shift of Latent Confounders in Imitation and Reinforcement Learning Guy Tennenholtz Assaf Hallak Gal Dalal Shie Mannor Gal Chechik Uri Shalit OOD OffRL 55 15 0 13 Oct 2021
A Spectral Approach to Off-Policy Evaluation for POMDPs Yash Nair Nan Jiang OffRL 26 17 0 22 Sep 2021
Universal Off-Policy Evaluation Yash Chandak S. Niekum Bruno C. da Silva Erik Learned-Miller Emma Brunskill Philip S. Thomas OffRL ELM 39 52 0 26 Apr 2021
Instrumental Variable Value Iteration for Causal Offline Reinforcement Learning Luofeng Liao Zuyue Fu Zhuoran Yang Yixin Wang Mladen Kolar Zhaoran Wang OffRL 18 35 0 19 Feb 2021
Training a Resilient Q-Network against Observational Interference Chao-Han Huck Yang I-Te Danny Hung Ouyang Yi Pin-Yu Chen OOD 31 14 0 18 Feb 2021
Off-policy Evaluation in Infinite-Horizon Reinforcement Learning with Latent Confounders Andrew Bennett Nathan Kallus Lihong Li Ali Mousavi OffRL 35 43 0 27 Jul 2020
Off-policy Policy Evaluation For Sequential Decisions Under Unobserved Confounding Hongseok Namkoong Ramtin Keramati Steve Yadlowsky Emma Brunskill OffRL 24 63 0 12 Mar 2020
Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement Learning Nathan Kallus Angela Zhou OffRL 38 58 0 11 Feb 2020
POPCORN: Partially Observed Prediction COnstrained ReiNforcement Learning Joseph D. Futoma M. C. Hughes Finale Doshi-Velez OffRL 21 49 0 13 Jan 2020
Empirical Study of Off-Policy Policy Evaluation for Reinforcement Learning Cameron Voloshin Hoang Minh Le Nan Jiang Yisong Yue OffRL 30 152 0 15 Nov 2019
Task-Relevant Adversarial Imitation Learning Konrad Zolna Scott E. Reed Alexander Novikov Sergio Gomez Colmenarejo David Budden Serkan Cabi Misha Denil Nando de Freitas Ziyun Wang GAN 28 61 0 02 Oct 2019
Double Reinforcement Learning for Efficient Off-Policy Evaluation in Markov Decision Processes Nathan Kallus Masatoshi Uehara OffRL 41 183 0 22 Aug 2019