GRPO-LEAD: A Difficulty-Aware Reinforcement Learning Approach for Concise Mathematical Reasoning in Language Models

13 April 2025

Papers citing "GRPO-LEAD: A Difficulty-Aware Reinforcement Learning Approach for Concise Mathematical Reasoning in Language Models"

2 / 2 papers shown

Title
SEM: Reinforcement Learning for Search-Efficient Large Language Models Zeyang Sha Shiwen Cui Weiqiang Wang KELM OffRL LRM 26 0 0 12 May 2025
Between Underthinking and Overthinking: An Empirical Study of Reasoning Length and correctness in LLMs Jinyan Su Jennifer Healey Preslav Nakov Claire Cardie LRM 121 0 0 30 Apr 2025