v1v2 (latest)

Mirror Descent Actor Critic via Bounded Advantage Learning

6 February 2025

Papers citing "Mirror Descent Actor Critic via Bounded Advantage Learning"

1 / 1 papers shown

Title
Divergence-Augmented Policy OptimizationNeural Information Processing Systems (NeurIPS), 2025 Qing Wang Yingru Li Jiechao Xiong Tong Zhang OffRL 249 17 0 28 Jan 2025