SoftTreeMax: Exponential Variance Reduction in Policy Gradient via Tree
Search

SoftTreeMax: Exponential Variance Reduction in Policy Gradient via Tree Search

30 January 2023

Gal Dalal

Papers citing "SoftTreeMax: Exponential Variance Reduction in Policy Gradient via Tree Search"

6 / 6 papers shown

Title
Off-OAB: Off-Policy Policy Gradient Method with Optimal Action-Dependent Baseline Wenjia Meng Qian Zheng Long Yang Yilong Yin Gang Pan OffRL 29 0 0 04 May 2024
Acceleration in Policy Optimization Veronica Chelu Tom Zahavy A. Guez Doina Precup Sebastian Flennerhag 25 0 0 18 Jun 2023
Exponential Bellman Equation and Improved Regret Bounds for Risk-Sensitive Reinforcement Learning Yingjie Fei Zhuoran Yang Yudong Chen Zhaoran Wang 21 46 0 06 Nov 2021
Improve Agents without Retraining: Parallel Tree Search with Off-Policy Correction Assaf Hallak Gal Dalal Steven Dalton I. Frosio Shie Mannor Gal Chechik OffRL OnRL 21 9 0 04 Jul 2021
On the Convergence and Sample Efficiency of Variance-Reduced Policy Gradient Method Junyu Zhang Chengzhuo Ni Zheng Yu Csaba Szepesvári Mengdi Wang 44 66 0 17 Feb 2021
Reward-Free Exploration for Reinforcement Learning Chi Jin A. Krishnamurthy Max Simchowitz Tiancheng Yu OffRL 101 194 0 07 Feb 2020