Instance-Dependent Near-Optimal Policy Identification in Linear MDPs via Online Experiment Design

6 July 2022

Papers citing "Instance-Dependent Near-Optimal Policy Identification in Linear MDPs via Online Experiment Design"

6 / 6 papers shown

Title
When is Agnostic Reinforcement Learning Statistically Tractable? Zeyu Jia Gene Li Alexander Rakhlin Ayush Sekhari Nathan Srebro OffRL 22 5 0 09 Oct 2023
Optimal Exploration for Model-Based RL in Nonlinear Systems Andrew Wagenmaker Guanya Shi Kevin G. Jamieson 31 14 0 15 Jun 2023
Best Policy Identification in Linear MDPs Jerome Taupin Yassir Jedra Alexandre Proutière 36 3 0 11 Aug 2022
First-Order Regret in Reinforcement Learning with Linear Function Approximation: A Robust Estimation Approach Andrew Wagenmaker Yifang Chen Max Simchowitz S. Du Kevin G. Jamieson 71 36 0 07 Dec 2021
Online Target Q-learning with Reverse Experience Replay: Efficiently finding the Optimal Policy for Linear MDPs Naman Agarwal Syomantak Chaudhuri Prateek Jain Dheeraj M. Nagaraj Praneeth Netrapalli OffRL 34 21 0 16 Oct 2021
Optimism in Reinforcement Learning with Generalized Linear Function Approximation Yining Wang Ruosong Wang S. Du A. Krishnamurthy 127 135 0 09 Dec 2019