Off-OAB: Off-Policy Policy Gradient Method with Optimal Action-Dependent Baseline

4 May 2024

Qian Zheng

Gang Pan

Papers citing "Off-OAB: Off-Policy Policy Gradient Method with Optimal Action-Dependent Baseline"

1 / 1 papers shown

Title
On the Convergence and Sample Efficiency of Variance-Reduced Policy Gradient Method Junyu Zhang Chengzhuo Ni Zheng Yu Csaba Szepesvári Mengdi Wang 44 66 0 17 Feb 2021