Optimal Estimation of Off-Policy Policy Gradient via Double Fitted Iteration

31 January 2022

Papers citing "Optimal Estimation of Off-Policy Policy Gradient via Double Fitted Iteration"

3 / 3 papers shown

Title
A Temporal-Difference Approach to Policy Gradient Estimation Samuele Tosatto Andrew Patterson Martha White A. R. Mahmood OffRL 11 1 0 04 Feb 2022
On the Convergence and Sample Efficiency of Variance-Reduced Policy Gradient Method Junyu Zhang Chengzhuo Ni Zheng Yu Csaba Szepesvári Mengdi Wang 44 67 0 17 Feb 2021
Off-Policy Actor-Critic T. Degris Martha White R. Sutton OffRL CML 158 220 0 22 May 2012