MMInA: Benchmarking Multihop Multimodal Internet Agents

15 April 2024

Papers citing "MMInA: Benchmarking Multihop Multimodal Internet Agents"

20 / 20 papers shown

Title
WebEvolver: Enhancing Web Agent Self-Improvement with Coevolving World Model Tianqing Fang H. M. Zhang Z. Zhang Kaixin Ma W. Yu Haitao Mi Dong Yu LLMAG KELM 99 0 0 23 Apr 2025
Survey on Evaluation of LLM-based Agents Asaf Yehudai Lilach Eden Alan Li Guy Uziel Yilun Zhao Roy Bar-Haim Arman Cohan Michal Shmueli-Scheuer LLMAG ELM Presented at ResearchTrend Connect \| LLMAG on 07 May 2025 93 5 0 20 Mar 2025
In-Context Defense in Computer Agents: An Empirical Study Pei Yang Hai Ci Mike Zheng Shou AAML LLMAG 75 0 0 12 Mar 2025
WebWalker: Benchmarking LLMs in Web Traversal Jialong Wu Wenbiao Yin Yong-feng Jiang Zhenglin Wang Zekun Xi ... Linhai Zhang Yulan He Deyu Zhou Pengjun Xie Fei Huang 38 5 0 13 Jan 2025
The BrowserGym Ecosystem for Web Agent Research Thibault Le Sellier De Chezelles Maxime Gasse Alexandre Lacoste Alexandre Drouin Massimo Caccia ... Siva Reddy Quentin Cappart Graham Neubig Ruslan Salakhutdinov Nicolas Chapados LLMAG 94 9 0 06 Dec 2024
VideoWebArena: Evaluating Long Context Multimodal Agents with Video Understanding Web Tasks Lawrence Jang Yinheng Li Charles Ding Justin Lin Paul Pu Liang Dan Zhao Rogerio Bonatti K. Koishida 23 5 0 24 Oct 2024
MobileSafetyBench: Evaluating Safety of Autonomous Agents in Mobile Device Control Juyong Lee Dongyoon Hahm June Suk Choi W. Bradley Knox Kimin Lee LLMAG ELM AAML LM&Ro 35 1 0 23 Oct 2024
Windows Agent Arena: Evaluating Multi-Modal OS Agents at Scale Rogerio Bonatti Dan Zhao Francesco Bonacci Dillon Dupont Sara Abdali ... Justin Wagle K. Koishida A. Bucker Lawrence Jang Zack Hui LLMAG 35 26 0 12 Sep 2024
WebQuest: A Benchmark for Multimodal QA on Web Page Sequences Maria Wang Srinivas Sunkara Gilles Baechler Jason Lin Yun Zhu Fedir Zubach Lei Shu Jindong Chen LRM LLMAG 11 1 0 06 Sep 2024
AssistantBench: Can Web Agents Solve Realistic and Time-Consuming Tasks? Ori Yoran S. Amouyal Chaitanya Malaviya Ben Bogin Ofir Press Jonathan Berant LLMAG 35 30 0 22 Jul 2024
Tree Search for Language Model Agents Jing Yu Koh Stephen Marcus McAleer Daniel Fried Ruslan Salakhutdinov LM&Ro LLMAG LRM 35 20 0 01 Jul 2024
AndroidWorld: A Dynamic Benchmarking Environment for Autonomous Agents Christopher Rawles Sarah Clinckemaillie Yifan Chang Jonathan Waltz Gabrielle Lau ... Daniel Toyama Robert Berry Divya Tyamagundlu Timothy Lillicrap Oriana Riva LLMAG 53 44 0 23 May 2024
OmniACT: A Dataset and Benchmark for Enabling Multimodal Generalist Autonomous Agents for Desktop and Web Raghav Kapoor Y. Butala M. Russak Jing Yu Koh Kiran Kamble Waseem Alshikh Ruslan Salakhutdinov LLMAG 51 44 0 27 Feb 2024
SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents Kanzhi Cheng Qiushi Sun Yougang Chu Fangzhi Xu Yantao Li Jianbing Zhang Zhiyong Wu LLMAG 162 137 0 17 Jan 2024
CogAgent: A Visual Language Model for GUI Agents Wenyi Hong Weihan Wang Qingsong Lv Jiazheng Xu Wenmeng Yu ... Juanzi Li Bin Xu Yuxiao Dong Ming Ding Jie Tang MLLM 132 310 0 14 Dec 2023
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Junnan Li Dongxu Li Silvio Savarese Steven C. H. Hoi VLM MLLM 244 4,186 0 30 Jan 2023
Pix2Struct: Screenshot Parsing as Pretraining for Visual Language Understanding Kenton Lee Mandar Joshi Iulia Turc Hexiang Hu Fangyu Liu Julian Martin Eisenschlos Urvashi Khandelwal Peter Shaw Ming-Wei Chang Kristina Toutanova CLIP VLM 148 259 0 07 Oct 2022
ReAct: Synergizing Reasoning and Acting in Language Models Shunyu Yao Jeffrey Zhao Dian Yu Nan Du Izhak Shafran Karthik Narasimhan Yuan Cao LLMAG ReLM LRM 208 2,413 0 06 Oct 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 301 11,730 0 04 Mar 2022
Zero-Shot Text-to-Image Generation Aditya A. Ramesh Mikhail Pavlov Gabriel Goh Scott Gray Chelsea Voss Alec Radford Mark Chen Ilya Sutskever VLM 253 4,735 0 24 Feb 2021