Survey on Evaluation of LLM-based Agents

20 March 2025

Papers citing "Survey on Evaluation of LLM-based Agents"

4 / 4 papers shown

Title
MARCO: A Multi-Agent System for Optimizing HPC Code Generation Using Large Language Models Asif Rahman Veljko Cvetkovic Kathleen Reece Aidan Walters Yasir Hassan Aneesh Tummeti Bryan Torres Denise Cooney Margaret Ellis Dimitrios S. Nikolopoulos LLMAG 34 0 0 06 May 2025
A Survey on Large Language Model based Human-Agent Systems Henry Peng Zou Wei-Chieh Huang Yaozu Wu Yankai Chen Chunyu Miao ... Y. Li Yuwei Cao Dongyuan Li Renhe Jiang Philip S. Yu LLMAG LM&Ro LM&MA 79 0 0 01 May 2025
REAL: Benchmarking Autonomous Agents on Deterministic Simulations of Real Websites Divyansh Garg Shaun VanWeelden Diego Caples Andis Draguns Nikil Ravi ... Youngchul Joo Jindong Gu Charles London Christian Schroeder de Witt S. Motwani 37 1 0 15 Apr 2025
Reasoning Beyond Limits: Advances and Open Problems for LLMs M. Ferrag Norbert Tihanyi Merouane Debbah ELM OffRL LRM AI4CE 56 2 0 26 Mar 2025