Counterfactual Learning from Bandit Feedback under Deterministic Logging: A Case Study in Statistical Machine Translation

28 July 2017

Papers citing "Counterfactual Learning from Bandit Feedback under Deterministic Logging: A Case Study in Statistical Machine Translation"

2 / 2 papers shown

Title
Data-Efficient Off-Policy Policy Evaluation for Reinforcement Learning Philip S. Thomas Emma Brunskill OffRL 225 573 0 04 Apr 2016
ADADELTA: An Adaptive Learning Rate Method Matthew D. Zeiler ODL 113 6,619 0 22 Dec 2012