Off-policy Learning for Multiple Loggers

Off-policy Learning for Multiple Loggers

23 July 2019

Long Xia

Papers citing "Off-policy Learning for Multiple Loggers"

5 / 5 papers shown

Title
The Concrete Distribution: A Continuous Relaxation of Discrete Random Variables Chris J. Maddison A. Mnih Yee Whye Teh BDL 119 2,523 0 02 Nov 2016
Safe and Efficient Off-Policy Reinforcement Learning Rémi Munos T. Stepleton Anna Harutyunyan Marc G. Bellemare OffRL 130 611 0 08 Jun 2016
f-GAN: Training Generative Neural Samplers using Variational Divergence Minimization Sebastian Nowozin Botond Cseke Ryota Tomioka GAN 102 1,648 0 02 Jun 2016
Data-Efficient Off-Policy Policy Evaluation for Reinforcement Learning Philip S. Thomas Emma Brunskill OffRL 264 573 0 04 Apr 2016
Unbiased Offline Evaluation of Contextual-bandit-based News Article Recommendation Algorithms Lihong Li Wei Chu John Langford Xuanhui Wang OffRL 168 574 0 31 Mar 2010