Communities
Connect sessions
AI calendar
Organizations
Join Slack
Contact Sales

Terms and Conditions

Twitter GitHub LinkedIn Bluesky Youtube

© 2026 ResearchTrend.AI, All rights reserved.

Home
Papers
2509.08755
Cited By

AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning

AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning

10 September 2025

ArXiv (abs)PDF HTML HuggingFace (53 upvotes)Github (14★)

Papers citing "AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning"

11 / 11 papers shown

DVPO: Distributional Value Modeling-based Policy Optimization for LLM Post-Training

DVPO: Distributional Value Modeling-based Policy Optimization for LLM Post-Training

...

Caishuang Huang

128

0

0

03 Dec 2025

ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration

ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration

...

Evelina Bakhturina

Pavlo Molchanov

257

4

0

26 Nov 2025

Scaling Agentic Reinforcement Learning for Tool-Integrated Reasoning in VLMs

Scaling Agentic Reinforcement Learning for Tool-Integrated Reasoning in VLMs

...

139

1

0

24 Nov 2025

Graph-Enhanced Policy Optimization in LLM Agent Training

Graph-Enhanced Policy Optimization in LLM Agent Training

87

0

0

30 Oct 2025

DeepAgent: A General Reasoning Agent with Scalable Toolsets

DeepAgent: A General Reasoning Agent with Scalable Toolsets

...

130

7

0

24 Oct 2025

A Comprehensive Survey on Reinforcement Learning-based Agentic Search: Foundations, Roles, Optimizations, Evaluations, and Applications

A Comprehensive Survey on Reinforcement Learning-based Agentic Search: Foundations, Roles, Optimizations, Evaluations, and Applications

Charu C. Aggarwal

558

2

0

19 Oct 2025

From Refusal to Recovery: A Control-Theoretic Approach to Generative AI Guardrails

From Refusal to Recovery: A Control-Theoretic Approach to Generative AI Guardrails

Andrea V. Bajcsy

138

1

0

15 Oct 2025

Revisiting Long-context Modeling from Context Denoising Perspective

Revisiting Long-context Modeling from Context Denoising Perspective

171

0

0

07 Oct 2025

Efficient Multi-turn RL for GUI Agents via Decoupled Training and Adaptive Data Curation

Efficient Multi-turn RL for GUI Agents via Decoupled Training and Adaptive Data Curation

...

143

1

0

28 Sep 2025

DeepTravel: An End-to-End Agentic Reinforcement Learning Framework for Autonomous Travel Planning Agents

DeepTravel: An End-to-End Agentic Reinforcement Learning Framework for Autonomous Travel Planning Agents

127

6

0

26 Sep 2025

Training Task Reasoning LLM Agents for Multi-turn Task Planning via Single-turn Reinforcement Learning

Training Task Reasoning LLM Agents for Multi-turn Task Planning via Single-turn Reinforcement Learning

129

0

0

24 Sep 2025