v1v2 (latest)

Three Methods for Training on Bandit Feedback

24 April 2019

Papers citing "Three Methods for Training on Bandit Feedback"

1 / 1 papers shown

Title
Offline Evaluation of Reward-Optimizing Recommender Systems: The Case of Simulation Imad Aouali Amine Benhalloum Martin Bompaire Benjamin Heymann Olivier Jeunen D. Rohde Otmane Sakhi Flavian Vasile OffRL 56 2 0 18 Sep 2022