Why is Posterior Sampling Better than Optimism for Reinforcement Learning?

1 July 2016

Papers citing "Why is Posterior Sampling Better than Optimism for Reinforcement Learning?"

11 / 61 papers shown

Title
Tighter Problem-Dependent Regret Bounds in Reinforcement Learning without Domain Knowledge using Value Function Bounds Andrea Zanette Emma Brunskill OffRL 19 272 0 01 Jan 2019
Neural Approaches to Conversational AI Jianfeng Gao Michel Galley Lihong Li 40 668 0 21 Sep 2018
Regret Bounds for Reinforcement Learning via Markov Chain Concentration R. Ortner 17 46 0 06 Aug 2018
Randomized Prior Functions for Deep Reinforcement Learning Ian Osband John Aslanides Albin Cassirer UQCV BDL 21 372 0 08 Jun 2018
Fast Exploration with Simplified Models and Approximately Optimistic Planning in Model Based Reinforcement Learning Ramtin Keramati Jay Whang Patrick Cho Emma Brunskill OffRL 21 7 0 01 Jun 2018
Efficient Bias-Span-Constrained Exploration-Exploitation in Reinforcement Learning Ronan Fruit Matteo Pirotta A. Lazaric R. Ortner 19 115 0 12 Feb 2018
Coordinated Exploration in Concurrent Reinforcement Learning Maria Dimakopoulou Benjamin Van Roy 21 40 0 05 Feb 2018
Deep Exploration via Randomized Value Functions Ian Osband Benjamin Van Roy Daniel Russo Zheng Wen 33 301 0 22 Mar 2017
Minimax Regret Bounds for Reinforcement Learning M. G. Azar Ian Osband Rémi Munos 14 759 0 16 Mar 2017
RL $^2$ : Fast Reinforcement Learning via Slow Reinforcement Learning Yan Duan John Schulman Xi Chen Peter L. Bartlett Ilya Sutskever Pieter Abbeel OffRL 33 1,007 0 09 Nov 2016
On Lower Bounds for Regret in Reinforcement Learning Ian Osband Benjamin Van Roy 13 101 0 09 Aug 2016