v1v2 (latest)

Self-Guided Process Reward Optimization with Redefined Step-wise Advantage for Process Reinforcement Learning

2 July 2025

Wu Fei

Hao Kong

Shuxian Liang

Yang Lin

Yibo Yang

Jing Tang

Lei Chen

Xiansheng Hua

Papers citing "Self-Guided Process Reward Optimization with Redefined Step-wise Advantage for Process Reinforcement Learning"

Title
No papers