A2C is a special case of PPO

18 May 2022

Santiago Ontañón

Papers citing "A2C is a special case of PPO"

2 / 2 papers shown

Title
Asynchronous RLHF: Faster and More Efficient Off-Policy RL for Language Models Michael Noukhovitch Shengyi Huang Sophie Xhonneux Arian Hosseini Rishabh Agarwal Aaron C. Courville OffRL 77 4 0 23 Oct 2024
Target-independent XLA optimization using Reinforcement Learning Milan Ganai Haichen Li Theodore Enns Yida Wang Randy Huang 21 0 0 28 Aug 2023