Representation Balancing MDPs for Off-Policy Policy Evaluation

Representation Balancing MDPs for Off-Policy Policy Evaluation

23 May 2018

Matthieu Komorowski

Finale Doshi-Velez

Papers citing "Representation Balancing MDPs for Off-Policy Policy Evaluation"

17 / 17 papers shown

Title
Short-Long Policy Evaluation with Novel Actions Hyunji Alex Nam Yash Chandak Emma Brunskill OffRL 26 0 0 04 Jul 2024
Reinforcement Learning in Practice: Opportunities and Challenges Yuxi Li OffRL 38 9 0 23 Feb 2022
Provable Benefits of Actor-Critic Methods for Offline Reinforcement Learning Andrea Zanette Martin J. Wainwright Emma Brunskill OffRL 34 115 0 19 Aug 2021
Finite-Sample Analysis of Off-Policy Natural Actor-Critic with Linear Function Approximation Zaiwei Chen S. Khodadadian S. T. Maguluri OffRL 68 29 0 26 May 2021
Finite-Sample Analysis of Off-Policy Natural Actor-Critic Algorithm S. Khodadadian Zaiwei Chen S. T. Maguluri CML OffRL 74 26 0 18 Feb 2021
Open Bandit Dataset and Pipeline: Towards Realistic and Reproducible Off-Policy Evaluation Yuta Saito Shunsuke Aihara Megumi Matsutani Yusuke Narita OffRL 24 73 0 17 Aug 2020
Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic Policies Nathan Kallus Masatoshi Uehara OffRL 14 15 0 06 Jun 2020
A Survey of Deep Learning for Scientific Discovery M. Raghu Erica Schmidt OOD AI4CE 47 120 0 26 Mar 2020
Off-policy Policy Evaluation For Sequential Decisions Under Unobserved Confounding Hongseok Namkoong Ramtin Keramati Steve Yadlowsky Emma Brunskill OffRL 24 63 0 12 Mar 2020
Asymptotically Efficient Off-Policy Evaluation for Tabular Reinforcement Learning Ming Yin Yu Wang OffRL 29 80 0 29 Jan 2020
Doubly Robust Bias Reduction in Infinite Horizon Off-Policy Estimation Ziyang Tang Yihao Feng Lihong Li Dengyong Zhou Qiang Liu OffRL 30 67 0 16 Oct 2019
Efficiently Breaking the Curse of Horizon in Off-Policy Evaluation with Double Reinforcement Learning Nathan Kallus Masatoshi Uehara OffRL 26 88 0 12 Sep 2019
Balanced off-policy evaluation in general action spaces A. Sondhi David Arbour Drew Dimmery OffRL 29 17 0 09 Jun 2019
Learning When-to-Treat Policies Xinkun Nie Emma Brunskill Stefan Wager CML OffRL 18 89 0 23 May 2019
Counterfactual Off-Policy Evaluation with Gumbel-Max Structural Causal Models Michael Oberst David Sontag CML OffRL 21 169 0 14 May 2019
Woulda, Coulda, Shoulda: Counterfactually-Guided Policy Search Lars Buesing T. Weber Yori Zwols S. Racanière A. Guez Jean-Baptiste Lespiau N. Heess CML 37 135 0 15 Nov 2018
Learning Representations for Counterfactual Inference Fredrik D. Johansson Uri Shalit David Sontag CML OOD BDL 232 722 0 12 May 2016