Online Joint Fine-tuning of Multi-Agent Flows

6 June 2024

Paul Mineiro

Papers citing "Online Joint Fine-tuning of Multi-Agent Flows"

2 / 2 papers shown

Title
Direct Nash Optimization: Teaching Language Models to Self-Improve with General Preferences Corby Rosset Ching-An Cheng Arindam Mitra Michael Santacroce Ahmed Hassan Awadallah Tengyang Xie 139 113 0 04 Apr 2024
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Jason W. Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Brian Ichter F. Xia Ed H. Chi Quoc Le Denny Zhou LM&Ro LRM AI4CE ReLM 313 8,261 0 28 Jan 2022