MAPS: A Multilingual Benchmark for Global Agent Performance and Security

v1v2 (latest)

MAPS: A Multilingual Benchmark for Global Agent Performance and Security

21 May 2025

Jonathan Brokman

Toshiya Shimizu

Trisha Starostina

Kelly Marchisio

Seraphina Goldfarb-Tarrant

Roman Vainshtein

ArXiv (abs)PDF HTML

Papers citing "MAPS: A Multilingual Benchmark for Global Agent Performance and Security"

4 / 4 papers shown

Title
Survey on Evaluation of LLM-based Agents Asaf Yehudai Lilach Eden Alan Li Guy Uziel Yilun Zhao Roy Bar-Haim Arman Cohan Michal Shmueli-Scheuer LLMAG ELM 267 36 0 20 Mar 2025
TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks Frank F. Xu Yufan Song Boxuan Li Yuxuan Tang Kritanjali Jain ... Wayne Chi Lawrence Jang Yiqing Xie Shuyan Zhou Graham Neubig LLMAG 282 59 0 18 Dec 2024
Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-based Agents H. Zhang Jingyuan Huang Kai Mei Yifei Yao Zhenting Wang Chenlu Zhan Hongwei Wang Yongfeng Zhang AAML LLMAG ELM 311 56 0 03 Oct 2024
Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models Lynn Chua Badih Ghazi Yangsibo Huang Pritish Kamath Ravi Kumar Pasin Manurangsi Amer Sinha Chulin Xie Chiyuan Zhang 219 5 0 23 Jun 2024