Optimal scheduling of entropy regulariser for continuous-time linear-quadratic reinforcement learning

8 August 2022

Papers citing "Optimal scheduling of entropy regulariser for continuous-time linear-quadratic reinforcement learning"

4 / 4 papers shown

Title
Policy Gradient Converges to the Globally Optimal Policy for Nearly Linear-Quadratic Regulators Yin-Huan Han Meisam Razaviyayn Renyuan Xu 22 5 0 15 Mar 2023
Statistical Learning with Sublinear Regret of Propagator Models Eyal Neuman Yufei Zhang 32 7 0 12 Jan 2023
Square-root regret bounds for continuous-time episodic Markov decision processes Xuefeng Gao X. Zhou 40 6 0 03 Oct 2022
Logarithmic regret bounds for continuous-time average-reward Markov decision processes Xuefeng Gao X. Zhou 29 8 0 23 May 2022