DualDICE: Behavior-Agnostic Estimation of Discounted Stationary Distribution Corrections

10 June 2019

Papers citing "DualDICE: Behavior-Agnostic Estimation of Discounted Stationary Distribution Corrections"

3 / 103 papers shown

Title
Infinite-horizon Off-Policy Policy Evaluation with Multiple Behavior Policies Xinyun Chen Lu Wang Yizhe Hang Heng Ge H. Zha OffRL 18 5 0 10 Oct 2019
Efficiently Breaking the Curse of Horizon in Off-Policy Evaluation with Double Reinforcement Learning Nathan Kallus Masatoshi Uehara OffRL 36 88 0 12 Sep 2019
Deep Reinforcement Learning for Dialogue Generation Jiwei Li Will Monroe Alan Ritter Michel Galley Jianfeng Gao Dan Jurafsky 220 1,329 0 05 Jun 2016