Rethinking Agent Design: From Top-Down Workflows to Bottom-Up Skill Evolution

23 May 2025

Papers citing "Rethinking Agent Design: From Top-Down Workflows to Bottom-Up Skill Evolution"

40 / 40 papers shown

Title
Why Do Multi-Agent LLM Systems Fail? Mert Cemri Melissa Z. Pan Shuyi Yang Lakshya A Agrawal Bhavya Chopra ... Dan Klein Kannan Ramchandran Matei A. Zaharia Joseph E. Gonzalez Ion Stoica LLMAG Presented at ResearchTrend Connect \| LLMAG on 23 Apr 2025 170 18 0 17 Mar 2025
Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling Xiaokang Chen Zhiyu Wu Xingchao Liu Zizheng Pan Wen Liu Zhenda Xie X. Yu Chong Ruan AI4TS 47 113 0 29 Jan 2025
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning DeepSeek-AI Daya Guo Dejian Yang Haowei Zhang Junxiao Song ... Shiyu Wang S. Yu Shunfeng Zhou Shuting Pan S.S. Li ReLM VLM OffRL AI4TS LRM 148 1,368 0 22 Jan 2025
UI-TARS: Pioneering Automated GUI Interaction with Native Agents Yujia Qin Yining Ye Junjie Fang Han Wang Shihao Liang ... Haifeng Liu F. Lin Tao Peng Xin Liu Guang Shi LLMAG LM&Ro 42 38 0 21 Jan 2025
Proposer-Agent-Evaluator(PAE): Autonomous Skill Discovery For Foundation Model Internet Agents Yifei Zhou Qianlan Yang K. Lin Min Bai Xiong Zhou Yu-Xiong Wang Sergey Levine Erran L. Li LLMAG 80 10 0 17 Dec 2024
Windows Agent Arena: Evaluating Multi-Modal OS Agents at Scale Rogerio Bonatti Dan Zhao Francesco Bonacci Dillon Dupont Sara Abdali ... Justin Wagle K. Koishida A. Bucker Lawrence Jang Zack Hui LLMAG 59 35 0 12 Sep 2024
Iteration Head: A Mechanistic Study of Chain-of-Thought Vivien A. Cabannes Charles Arnal Wassim Bouaziz Alice Yang Francois Charton Julia Kempe LRM 64 9 0 04 Jun 2024
AndroidWorld: A Dynamic Benchmarking Environment for Autonomous Agents Christopher Rawles Sarah Clinckemaillie Yifan Chang Jonathan Waltz Gabrielle Lau ... Daniel Toyama Robert Berry Divya Tyamagundlu Timothy Lillicrap Oriana Riva LLMAG 85 53 0 23 May 2024
OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments Tianbao Xie Danyang Zhang Jixuan Chen Xiaochuan Li Siheng Zhao ... Shuyan Zhou Silvio Savarese Caiming Xiong Victor Zhong Tao Yu 28 140 0 11 Apr 2024
WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models Hongliang He Wenlin Yao Kaixin Ma Wenhao Yu Yong Dai Hongming Zhang Zhenzhong Lan Dong Yu LLMAG 50 129 0 25 Jan 2024
AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation Qingyun Wu Gagan Bansal Jieyu Zhang Yiran Wu Beibin Li ... Jiale Liu Ahmed Hassan Awadallah Ryen W. White Doug Burger Chi Wang LLMAG AI4CE 53 315 0 16 Aug 2023
AgentBench: Evaluating LLMs as Agents Xiao Liu Hao Yu Hanchen Zhang Yifan Xu Xuanyu Lei ... Yu-Chuan Su Huan Sun Minlie Huang Yuxiao Dong Jie Tang ELM LLMAG 68 277 0 07 Aug 2023
MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework Sirui Hong Mingchen Zhuge Jonathan Chen Xiawu Zheng Yuheng Cheng ... Liyang Zhou Chenyu Ran Lingfeng Xiao Chenglin Wu Jürgen Schmidhuber LLMAG AIFin 32 548 0 01 Aug 2023
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control Anthony Brohan Noah Brown Justice Carbajal Yevgen Chebotar Xi Chen ... Ted Xiao Peng Xu Sichun Xu Tianhe Yu Brianna Zitkovich LM&Ro LRM 74 1,172 0 28 Jul 2023
ChatDev: Communicative Agents for Software Development Cheng Qian Wei Liu Hongzhang Liu Nuo Chen Yufan Dang ... Xin Cong Juyuan Xu Dahai Li Zhiyuan Liu Maosong Sun LLMAG 38 176 0 16 Jul 2023
Auto-GPT for Online Decision Making: Benchmarks and Additional Opinions Hui Yang Sifu Yue Yunzhong He RALM 10 157 0 04 Jun 2023
Voyager: An Open-Ended Embodied Agent with Large Language Models Guanzhi Wang Yuqi Xie Yunfan Jiang Ajay Mandlekar Chaowei Xiao Yuke Zhu Linxi Fan Anima Anandkumar LM&Ro SyDa 77 781 0 25 May 2023
Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Models Lei Wang Wanyu Xu Yihuai Lan Zhiqiang Hu Yunshi Lan Roy Ka-wei Lee Ee-Peng Lim ReLM LRM 73 333 0 06 May 2023
Generative Agents: Interactive Simulacra of Human Behavior J. Park Joseph C. O'Brien Carrie J. Cai Meredith Ringel Morris Percy Liang Michael S. Bernstein LM&Ro AI4CE 343 1,852 0 07 Apr 2023
Segment Anything A. Kirillov Eric Mintun Nikhila Ravi Hanzi Mao Chloe Rolland ... Spencer Whitehead Alexander C. Berg Wan-Yen Lo Piotr Dollár Ross B. Girshick MLLM VLM 228 7,047 0 05 Apr 2023
CAMEL: Communicative Agents for "Mind" Exploration of Large Language Model Society Ge Li Hasan Hammoud Hani Itani Dmitrii Khizbullin Guohao Li SyDa ALM 75 454 0 31 Mar 2023
Reflexion: Language Agents with Verbal Reinforcement Learning Noah Shinn Federico Cassano Beck Labash A. Gopinath Karthik Narasimhan Shunyu Yao LLMAG KELM 32 1,190 0 20 Mar 2023
GPT-4 Technical Report OpenAI OpenAI OpenAI Josh Achiam Steven Adler Sandhini Agarwal Lama Ahmad ... Shengjia Zhao Tianhao Zheng Juntang Zhuang William Zhuk Barret Zoph LLMAG MLLM 403 13,788 0 15 Mar 2023
Open-World Object Manipulation using Pre-trained Vision-Language Models Austin Stone Ted Xiao Yao Lu K. Gopalakrishnan Kuang-Huei Lee ... Sean Kirmani Brianna Zitkovich F. Xia Chelsea Finn Karol Hausman LM&Ro 181 148 0 02 Mar 2023
Mastering Diverse Domains through World Models Danijar Hafner J. Pašukonis Jimmy Ba Timothy Lillicrap 47 575 0 10 Jan 2023
On Second Thought, Let's Not Think Step by Step! Bias and Toxicity in Zero-Shot Reasoning Omar Shaikh Hongxin Zhang William B. Held Michael S. Bernstein Diyi Yang ReLM LRM 73 194 0 15 Dec 2022
RT-1: Robotics Transformer for Real-World Control at Scale Anthony Brohan Noah Brown Justice Carbajal Yevgen Chebotar Joseph Dabis ... Ted Xiao Peng Xu Sichun Xu Tianhe Yu Brianna Zitkovich LM&Ro 58 1,068 0 13 Dec 2022
ReAct: Synergizing Reasoning and Acting in Language Models Shunyu Yao Jeffrey Zhao Dian Yu Nan Du Izhak Shafran Karthik Narasimhan Yuan Cao LLMAG ReLM LRM 337 2,709 0 06 Oct 2022
Video PreTraining (VPT): Learning to Act by Watching Unlabeled Online Videos Bowen Baker Ilge Akkaya Peter Zhokhov Joost Huizinga Jie Tang Adrien Ecoffet Brandon Houghton Raul Sampedro Jeff Clune OffRL 78 293 0 23 Jun 2022
Emergent Abilities of Large Language Models Jason W. Wei Yi Tay Rishi Bommasani Colin Raffel Barret Zoph ... Tatsunori Hashimoto Oriol Vinyals Percy Liang J. Dean W. Fedus ELM ReLM LRM 168 2,428 0 15 Jun 2022
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Jason W. Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Brian Ichter F. Xia Ed H. Chi Quoc Le Denny Zhou LM&Ro LRM AI4CE ReLM 562 9,009 0 28 Jan 2022
Scalable Evaluation of Multi-Agent Reinforcement Learning with Melting Pot Joel Z Leibo Edgar A. Duénez-Guzmán A. Vezhnevets J. Agapiou P. Sunehag Raphael Köster Jayd Matyas Charlie Beattie Igor Mordatch T. Graepel OffRL 66 105 0 14 Jul 2021
Monte Carlo Tree Search: A Review of Recent Modifications and Applications M. Świechowski Konrad Godlewski B. Sawicki Jacek Mańdziuk 50 259 0 08 Mar 2021
Paired Open-Ended Trailblazer (POET): Endlessly Generating Increasingly Complex and Diverse Learning Environments and Their Solutions Rui Wang Joel Lehman Jeff Clune Kenneth O. Stanley 60 245 0 07 Jan 2019
Diversity is All You Need: Learning Skills without a Reward Function Benjamin Eysenbach Abhishek Gupta Julian Ibarz Sergey Levine 58 1,075 0 16 Feb 2018
IMPALA: Scalable Distributed Deep-RL with Importance Weighted Actor-Learner Architectures L. Espeholt Hubert Soyer Rémi Munos Karen Simonyan Volodymyr Mnih ... Vlad Firoiu Tim Harley Iain Dunning Shane Legg Koray Kavukcuoglu 140 1,584 0 05 Feb 2018
MAgent: A Many-Agent Reinforcement Learning Platform for Artificial Collective Intelligence Lianmin Zheng Jiacheng Yang Han Cai Weinan Zhang Jun Wang Yong Yu 28 209 0 02 Dec 2017
Proximal Policy Optimization Algorithms John Schulman Filip Wolski Prafulla Dhariwal Alec Radford Oleg Klimov OffRL 201 18,685 0 20 Jul 2017
FeUdal Networks for Hierarchical Reinforcement Learning A. Vezhnevets Simon Osindero Tom Schaul N. Heess Max Jaderberg David Silver Koray Kavukcuoglu FedML 65 902 0 03 Mar 2017
Asynchronous Methods for Deep Reinforcement Learning Volodymyr Mnih Adria Puigdomenech Badia M. Berk Mirza Alex Graves Timothy Lillicrap Tim Harley David Silver Koray Kavukcuoglu 157 8,805 0 04 Feb 2016