ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL

ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL

29 February 2024

Papers citing "ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL"

9 / 9 papers shown

Title
Iterative Tool Usage Exploration for Multimodal Agents via Step-wise Preference Tuning Pengxiang Li Zhi Gao Bofei Zhang Yapeng Mi Xiaojian Ma ... Tao Yuan Yuwei Wu Yunde Jia Song-Chun Zhu Qing Li LLMAG 55 53 0 30 Apr 2025
InfoQuest: Evaluating Multi-Turn Dialogue Agents for Open-Ended Conversations with Hidden Context Bryan L. M. de Oliveira Luana G. B. Martins Bruno Brandão L. Melo ELM 49 20 0 17 Feb 2025
Problem Solving Through Human-AI Preference-Based Cooperation Subhabrata Dutta Timo Kaufmann Goran Glavas Ivan Habernal Kristian Kersting Frauke Kreuter Mira Mezini Iryna Gurevych Eyke Hüllermeier Hinrich Schuetze 62 104 0 14 Aug 2024
FireAct: Toward Language Agent Fine-tuning Baian Chen Chang Shu Ehsan Shareghi Nigel Collier Karthik Narasimhan Shunyu Yao ALM LLMAG 73 48 0 09 Oct 2023
Improving alignment of dialogue agents via targeted human judgements Amelia Glaese Nat McAleese Maja Trkebacz John Aslanides Vlad Firoiu ... John F. J. Mellor Demis Hassabis Koray Kavukcuoglu Lisa Anne Hendricks G. Irving ALM AAML 209 413 0 28 Sep 2022
The Primacy Bias in Deep Reinforcement Learning Evgenii Nikishin Max Schwarzer P. DÓro Pierre-Luc Bacon Aaron C. Courville OnRL 70 128 0 16 May 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 298 7,763 0 04 Mar 2022
Offline Reinforcement Learning with Implicit Q-Learning Ilya Kostrikov Ashvin Nair Sergey Levine OffRL 183 599 0 12 Oct 2021
Fine-Tuning Language Models from Human Preferences Daniel M. Ziegler Nisan Stiennon Jeff Wu Tom B. Brown Alec Radford Dario Amodei Paul Christiano G. Irving ALM 264 1,123 0 18 Sep 2019