Square-root regret bounds for continuous-time episodic Markov decision processes

3 October 2022

Papers citing "Square-root regret bounds for continuous-time episodic Markov decision processes"

5 / 5 papers shown

Title
Reinforcement Learning for Intensity Control: An Application to Choice-Based Network Revenue Management Huiling Meng Ningyuan Chen Xuefeng Gao 55 1 0 08 Jun 2024
$ε$ -Policy Gradient for Online Pricing Lukasz Szpruch Tanut Treetanthiploet Yufei Zhang OffRL 49 1 0 06 May 2024
Statistical Learning with Sublinear Regret of Propagator Models Eyal Neuman Yufei Zhang 35 7 0 12 Jan 2023
Optimal scheduling of entropy regulariser for continuous-time linear-quadratic reinforcement learning Lukasz Szpruch Tanut Treetanthiploet Yufei Zhang 11 8 0 08 Aug 2022
Logarithmic regret bounds for continuous-time average-reward Markov decision processes Xuefeng Gao X. Zhou 29 8 0 23 May 2022