Plan Then Action:High-Level Planning Guidance Reinforcement Learning for LLM Reasoning

Plan Then Action:High-Level Planning Guidance Reinforcement Learning for LLM Reasoning

2 October 2025

ArXiv (abs)PDF HTML

Papers citing "Plan Then Action:High-Level Planning Guidance Reinforcement Learning for LLM Reasoning"

1 / 1 papers shown

Title
SRPO: Enhancing Multimodal LLM Reasoning via Reflection-Aware Reinforcement Learning Zhongwei Wan Zhihao Dou Che Liu Yu Zhang Dongfei Cui ... Yifan Jiang Yangfan He Mi Zhang Shen Yan Shen Yan LRM 184 25 0 02 Jun 2025