Communities
Connect sessions
AI calendar
Organizations
Join Slack
Contact Sales

Terms and Conditions

Twitter GitHub LinkedIn Bluesky Youtube

© 2026 ResearchTrend.AI, All rights reserved.

Home
Papers
2506.20520
Cited By

Asymmetric REINFORCE for off-Policy Reinforcement Learning: Balancing positive and negative rewards

v1v2 (latest)

Asymmetric REINFORCE for off-Policy Reinforcement Learning: Balancing positive and negative rewards

25 June 2025

Gaëtan Narozniak

Vivien A. Cabannes

ArXiv (abs)PDF HTML

Papers citing "Asymmetric REINFORCE for off-Policy Reinforcement Learning: Balancing positive and negative rewards"

10 / 10 papers shown

Fast LLM Post-training via Decoupled and Fastest-of-N Speculation

Fast LLM Post-training via Decoupled and Fastest-of-N Speculation

...

456

0

0

24 Dec 2025

BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping

BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping

...

183

8

0

21 Oct 2025

On the optimization dynamics of RLVR: Gradient gap and step size thresholds

On the optimization dynamics of RLVR: Gradient gap and step size thresholds

186

0

0

09 Oct 2025

ExGRPO: Learning to Reason from Experience

ExGRPO: Learning to Reason from Experience

145

3

1

02 Oct 2025

Prosperity before Collapse: How Far Can Off-Policy RL Reach with Stale Data on LLMs?

Prosperity before Collapse: How Far Can Off-Policy RL Reach with Stale Data on LLMs?

161

10

0

01 Oct 2025

Group-Relative REINFORCE Is Secretly an Off-Policy Algorithm: Demystifying Some Myths About GRPO and Its Friends

Group-Relative REINFORCE Is Secretly an Off-Policy Algorithm: Demystifying Some Myths About GRPO and Its Friends

113

4

0

29 Sep 2025

Quantile Advantage Estimation for Entropy-Safe Reasoning

Quantile Advantage Estimation for Entropy-Safe Reasoning

143

4

0

26 Sep 2025

Outcome-based Exploration for LLM Reasoning

Outcome-based Exploration for LLM Reasoning

282

38

0

08 Sep 2025

On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic Weighting

On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic Weighting

210

33

0

15 Aug 2025

Transforming Calabi-Yau Constructions: Generating New Calabi-Yau Manifolds with Transformers

Transforming Calabi-Yau Constructions: Generating New Calabi-Yau Manifolds with Transformers

Jacky H. T. Yip

Francois Charton

155

3

0

04 Jul 2025

Page 1 of 1