Title
Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems Shaokun Zhang Ming Yin Jieyu Zhang J. H. Liu Zhiguang Han ... Beibin Li Chi Wang H. Wang Y. Chen Qingyun Wu 47 0 0 30 Apr 2025
RepliBench: Evaluating the Autonomous Replication Capabilities of Language Model Agents Sid Black Asa Cooper Stickland Jake Pencharz Oliver Sourbut Michael Schmatz Jay Bailey Ollie Matthews Ben Millwood Alex Remedios Alan Cooney ELM 52 0 0 21 Apr 2025
a1: Steep Test-time Scaling Law via Environment Augmented Generation Lingrui Mei Shenghua Liu Yiwei Wang Baolong Bi Yuyao Ge Jun Wan Yurong Wu Xueqi Cheng LRM 17 0 0 20 Apr 2025
Progent: Programmable Privilege Control for LLM Agents Tianneng Shi Jingxuan He Zhun Wang Linyu Wu Hongwei Li Wenbo Guo Dawn Song LLMAG 31 0 0 16 Apr 2025
GraphicBench: A Planning Benchmark for Graphic Design with Language Agents Dayeon Ki Tianyi Zhou Marine Carpuat Gang Wu Puneet Mathur Viswanathan Swaminathan LLMAG LM&Ro 48 0 0 15 Apr 2025
Geo-OLM: Enabling Sustainable Earth Observation Studies with Cost-Efficient Open Language Models & State-Driven Workflows Dimitrios Stamoulis Diana Marculescu 16 0 0 06 Apr 2025
Browsing Lost Unformed Recollections: A Benchmark for Tip-of-the-Tongue Search and Reasoning Sky CH-Wang Darshan Deshpande Smaranda Muresan Anand Kannappan Rebecca Qian 46 0 0 24 Mar 2025
Why Do Multi-Agent LLM Systems Fail? Mert Cemri Melissa Z. Pan Shuyi Yang Lakshya A Agrawal Bhavya Chopra ... Dan Klein Kannan Ramchandran Matei A. Zaharia Joseph E. Gonzalez Ion Stoica LLMAG Presented at ResearchTrend Connect \| LLMAG on 23 Apr 2025 108 5 0 17 Mar 2025
Multi-Agent Systems Execute Arbitrary Malicious Code Harold Triedman Rishi Jha Vitaly Shmatikov LLMAG AAML 86 2 0 15 Mar 2025
LLM Agents for Education: Advances and Applications Zhendong Chu Shen Wang Jian Xie Tinghui Zhu Yibo Yan ... Aoxiao Zhong Xuming Hu Jing Liang Philip S. Yu Qingsong Wen LLMAG ELM 103 1 0 14 Mar 2025
Nexus: A Lightweight and Scalable Multi-Agent Framework for Complex Tasks Automation Humza Sami Mubashir ul Islam Samy Charas Asav Gandhi P. Gaillardon V. Tenace LLMAG 69 0 0 26 Feb 2025
Curie: Toward Rigorous and Automated Scientific Experimentation with AI Agents Patrick Tser Jern Kon Jiachen Liu Qiuyi Ding Yiming Qiu Zhenning Yang Yibo Huang Jayanth Srinivasa Myungjin Lee Mosharaf Chowdhury Ang Chen 45 3 0 22 Feb 2025
MLGym: A New Framework and Benchmark for Advancing AI Research Agents Deepak Nathani Lovish Madaan Nicholas Roberts Nikolay Bashlykov Ajay Menon ... Tatiana Shavrina Jakob Foerster Yoram Bachrach William Yang Wang Roberta Raileanu LLMAG 75 7 0 21 Feb 2025
Optimizing Model Selection for Compound AI Systems Lingjiao Chen Jared Quincy Davis Boris Hanin Peter Bailis Matei A. Zaharia James Y. Zou Ion Stoica 42 0 0 20 Feb 2025
KARMA: Leveraging Multi-Agent LLMs for Automated Knowledge Graph Enrichment Yuxing Lu Jinzhuo Wang 33 1 0 10 Feb 2025
The AI Agent Index Stephen Casper Luke Bailey Rosco Hunter Carson Ezell Emma Cabalé ... Phillip J. K. Christoffersen A. Pinar Ozisik Rakshit Trivedi Dylan Hadfield-Menell Noam Kolt 63 4 0 03 Feb 2025
Multi-Agent Geospatial Copilots for Remote Sensing Workflows Chaehong Lee Varatheepan Paramanayakam Andreas Karatzas Yanan Jian Michael Fore Heming Liao Fuxun Yu Ruopu Li Iraklis Anagnostopoulos Dimitrios Stamoulis 31 2 0 28 Jan 2025
Authenticated Delegation and Authorized AI Agents Tobin South Samuele Marro Thomas Hardjono Robert Mahari Cedric Deslandes Whitney Dazza Greenwood Alan Chan Alex Pentland 37 3 0 17 Jan 2025
Multi-Agent Collaboration Mechanisms: A Survey of LLMs Khanh-Tung Tran Dung Dao Minh-Duong Nguyen Quoc-Viet Pham Barry O’Sullivan Hoang D. Nguyen LLMAG 80 22 0 10 Jan 2025
Challenges in Human-Agent Communication Gagan Bansal J. W. Vaughan Saleema Amershi Eric Horvitz Adam Fourney Hussein Mozannar Victor C. Dibia Daniel S. Weld LLMAG AAML AI4CE 68 0 0 28 Nov 2024
DAWN: Designing Distributed Agents in a Worldwide Network Zahra Aminiranjbar Jianan Tang Qiudan Wang Shubha Pant Mahesh Viswanathan LLMAG AI4CE 17 1 0 11 Oct 2024
ST-WebAgentBench: A Benchmark for Evaluating Safety and Trustworthiness in Web Agents Ido Levy Ben wiesel Sami Marreed Alon Oved Avi Yaeli Segev Shlomov LLMAG 24 6 0 09 Oct 2024