Reward-estimation variance elimination in sequential decision processes

15 November 2018

Papers citing "Reward-estimation variance elimination in sequential decision processes"

5 / 5 papers shown

Title
Multi-Fidelity Policy Gradient Algorithms Xinjie Liu Cyrus Neary Kushagra Gupta Christian Ellis Ufuk Topcu David Fridovich-Keil OffRL 256 0 0 07 Mar 2025
Dealing with the Unknown: Pessimistic Offline Reinforcement Learning Jinning Li Chen Tang Masayoshi Tomizuka Wei Zhan OffRL 21 21 0 09 Nov 2021
Coordinate-wise Control Variates for Deep Policy Gradients Yuanyi Zhong Yuanshuo Zhou Jian-wei Peng BDL 32 1 0 11 Jul 2021
Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems Sergey Levine Aviral Kumar George Tucker Justin Fu OffRL GP 343 1,968 0 04 May 2020
Trajectory-wise Control Variates for Variance Reduction in Policy Gradient Methods Ching-An Cheng Xinyan Yan Byron Boots 30 22 0 08 Aug 2019