AAPO: Enhancing the Reasoning Capabilities of LLMs with Advantage Momentum

v1v2 (latest)

AAPO: Enhancing the Reasoning Capabilities of LLMs with Advantage Momentum

20 May 2025

ArXiv (abs)PDF HTML Github

Papers citing "AAPO: Enhancing the Reasoning Capabilities of LLMs with Advantage Momentum"

5 / 5 papers shown

Title
Geometric-Mean Policy Optimization Yuzhong Zhao Yue Liu Junpeng Liu Jingye Chen Xun Wu ... Shaohan Huang Lei Cui Qixiang Ye Fang Wan Furu Wei 229 21 0 28 Jul 2025
Understanding R1-Zero-Like Training: A Critical Perspective Zichen Liu Changyu Chen Wenjun Li Penghui Qi Tianyu Pang Chao Du Wee Sun Lee Jialin Li OffRL LRM 478 554 0 26 Mar 2025
Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesn't Quy-Anh Dang Chris Ngo OffRL LRM 305 42 0 20 Mar 2025
DAPO: An Open-Source LLM Reinforcement Learning System at Scale Qiying Yu Zheng Zhang Ruofei Zhu Yufeng Yuan Xiaochen Zuo ... Ya Zhang Lin Yan Mu Qiao Yonghui Wu Mingxuan Wang OffRL LRM 552 933 0 18 Mar 2025
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning DeepSeek-AI Daya Guo Dejian Yang Haowei Zhang Junxiao Song ... Shiyu Wang S. Yu Shunfeng Zhou Shuting Pan S.S. Li ReLM VLM OffRL AI4TS LRM 1.2K 5,274 0 22 Jan 2025