Communities
Connect sessions
AI calendar
Organizations
Join Slack
Contact Sales

Terms and Conditions

Twitter GitHub LinkedIn Bluesky Youtube

© 2026 ResearchTrend.AI, All rights reserved.

Home
Papers
2509.09265
Cited By

Harnessing Uncertainty: Entropy-Modulated Policy Gradients for Long-Horizon LLM Agents

Harnessing Uncertainty: Entropy-Modulated Policy Gradients for Long-Horizon LLM Agents

11 September 2025

ArXiv (abs)PDF HTML HuggingFace (41 upvotes)

Papers citing "Harnessing Uncertainty: Entropy-Modulated Policy Gradients for Long-Horizon LLM Agents"

7 / 7 papers shown

Revisiting Entropy in Reinforcement Learning for Large Reasoning Models

Revisiting Entropy in Reinforcement Learning for Large Reasoning Models

126

1

0

08 Nov 2025

SALT: Step-level Advantage Assignment for Long-horizon Agents via Trajectory Graph

SALT: Step-level Advantage Assignment for Long-horizon Agents via Trajectory Graph

127

0

0

22 Oct 2025

Attention Illuminates LLM Reasoning: The Preplan-and-Anchor Rhythm Enables Fine-Grained Policy Optimization

Attention Illuminates LLM Reasoning: The Preplan-and-Anchor Rhythm Enables Fine-Grained Policy Optimization

...

113

4

0

15 Oct 2025

Entropy Meets Importance: A Unified Head Importance-Entropy Score for Stable and Efficient Transformer Pruning

Entropy Meets Importance: A Unified Head Importance-Entropy Score for Stable and Efficient Transformer Pruning

117

0

0

10 Oct 2025

RewardMap: Tackling Sparse Rewards in Fine-grained Visual Reasoning via Multi-Stage Reinforcement Learning

RewardMap: Tackling Sparse Rewards in Fine-grained Visual Reasoning via Multi-Stage Reinforcement Learning

203

2

0

02 Oct 2025

Gradient Coupling: The Hidden Barrier to Generalization in Agentic Reinforcement Learning

Gradient Coupling: The Hidden Barrier to Generalization in Agentic Reinforcement Learning

173

0

0

28 Sep 2025

Quantile Advantage Estimation for Entropy-Safe Reasoning

Quantile Advantage Estimation for Entropy-Safe Reasoning

129

4

0

26 Sep 2025