On Convergence of some Gradient-based Temporal-Differences Algorithms
for Off-Policy Learning

On Convergence of some Gradient-based Temporal-Differences Algorithms for Off-Policy Learning

27 December 2017

Huizhen Yu

Papers citing "On Convergence of some Gradient-based Temporal-Differences Algorithms for Off-Policy Learning"

5 / 5 papers shown

Title
Finite-Time Error Bounds for Greedy-GQ Yue Wang Yi Zhou Shaofeng Zou 47 1 0 06 Sep 2022
Greedy-GQ with Variance Reduction: Finite-time Analysis and Improved Complexity Shaocong Ma Ziyi Chen Yi Zhou Shaofeng Zou 24 11 0 30 Mar 2021
Single-Timescale Stochastic Nonconvex-Concave Optimization for Smooth Nonlinear TD Learning Shuang Qiu Zhuoran Yang Xiaohan Wei Jieping Ye Zhaoran Wang 38 38 0 23 Aug 2020
Actor-Critic Provably Finds Nash Equilibria of Linear-Quadratic Mean-Field Games Zuyue Fu Zhuoran Yang Yongxin Chen Zhaoran Wang 46 54 0 16 Oct 2019
Two Time-scale Off-Policy TD Learning: Non-asymptotic Analysis over Markovian Samples Tengyu Xu Shaofeng Zou Yingbin Liang 38 73 0 26 Sep 2019