From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning

6 November 2024

Papers citing "From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning"

2 / 2 papers shown

Title
Iterative Tool Usage Exploration for Multimodal Agents via Step-wise Preference Tuning Pengxiang Li Zhi Gao Bofei Zhang Yapeng Mi Xiaojian Ma ... Tao Yuan Yuwei Wu Yunde Jia Song-Chun Zhu Qing Li LLMAG 70 0 0 30 Apr 2025
Exploring Expert Failures Improves LLM Agent Tuning Li-Cheng Lan Andrew Bai Minhao Cheng Ruochen Wang Cho-Jui Hsieh LRM 110 0 0 17 Apr 2025