WebLINX: Real-World Website Navigation with Multi-Turn Dialogue

8 February 2024

Zdeněk Kasner

Siva Reddy

Papers citing "WebLINX: Real-World Website Navigation with Multi-Turn Dialogue"

48 / 48 papers shown

Title
Open Challenges in Multi-Agent Security: Towards Secure Systems of Interacting AI Agents Christian Schroeder de Witt AAML AI4CE 46 0 0 04 May 2025
PIPA: A Unified Evaluation Protocol for Diagnosing Interactive Planning Agents Takyoung Kim Janvijay Singh Shuhaib Mehri Emre Can Acikgoz Sagnik Mukherjee Nimet Beyza Bozdag Sumuk Shashidhar Gökhan Tür Dilek Hakkani-Tür LLMAG 25 0 0 02 May 2025
A Survey on Large Language Model based Human-Agent Systems Henry Peng Zou Wei-Chieh Huang Yaozu Wu Yankai Chen Chunyu Miao ... Y. Li Yuwei Cao Dongyuan Li Renhe Jiang Philip S. Yu LLMAG LM&Ro LM&MA 79 0 0 01 May 2025
Guiding VLM Agents with Process Rewards at Inference Time for GUI Navigation Zhiyuan Hu Shiyun Xiong Yifan Zhang See-Kiong Ng Anh Tuan Luu Bo An Shuicheng Yan Bryan Hooi 31 0 0 22 Apr 2025
RealWebAssist: A Benchmark for Long-Horizon Web Assistance with Real-World Users Suyu Ye Haojun Shi Darren Shih Hyokun Yun Tanya Roosta Tianmin Shu 19 0 0 14 Apr 2025
Breaking the Data Barrier -- Building GUI Agents Through Task Generalization Junlei Zhang Zichen Ding Chang Ma Zijie Chen Qiushi Sun Zhenzhong Lan Junxian He 39 0 0 14 Apr 2025
AgentRewardBench: Evaluating Automatic Evaluations of Web Agent Trajectories Xing Han Lù Amirhossein Kazemnejad Nicholas Meade Arkil Patel Dongchan Shin Alejandra Zambrano Karolina Stañczak Peter Shaw Christopher Pal Siva Reddy LLMAG 27 0 0 11 Apr 2025
An Illusion of Progress? Assessing the Current State of Web Agents Tianci Xue Weijian Qi Tianneng Shi Chan Hee Song Boyu Gou D. Song Huan Sun Yu Su LLMAG ELM 81 4 1 02 Apr 2025
Navi-plus: Managing Ambiguous GUI Navigation Tasks with Follow-up Ziming Cheng Zhiyuan Huang Junting Pan Zhaohui Hou Mingjie Zhan 38 0 0 31 Mar 2025
StableToolBench-MirrorAPI: Modeling Tool Environments as Mirrors of 7,000+ Real-World APIs Zhicheng Guo Sijie Cheng Yuchen Niu Hao Wang Sicheng Zhou Wenbing Huang Yang Liu CLL OffRL 83 0 0 26 Mar 2025
Survey on Evaluation of LLM-based Agents Asaf Yehudai Lilach Eden Alan Li Guy Uziel Yilun Zhao Roy Bar-Haim Arman Cohan Michal Shmueli-Scheuer LLMAG ELM Presented at ResearchTrend Connect \| LLMAG on 07 May 2025 93 5 0 20 Mar 2025
UI-Vision: A Desktop-centric GUI Benchmark for Visual Perception and Interaction Shravan Nayak Xiangru Jian Kevin Qinghong Lin Juan A. Rodriguez Montek Kalsi ... David Vazquez Christopher Pal Perouz Taslakian Spandana Gella Sai Rajeswar 79 0 0 19 Mar 2025
SafeArena: Evaluating the Safety of Autonomous Web Agents Ada Defne Tur Nicholas Meade Xing Han Lù Alejandra Zambrano Arkil Patel Esin Durmus Spandana Gella Karolina Stañczak Siva Reddy LLMAG ELM 82 2 0 06 Mar 2025
SpiritSight Agent: Advanced GUI Agent with One Look Zhiyuan Huang Ziming Cheng Junting Pan Zhaohui Hou Mingjie Zhan LLMAG 83 2 0 05 Mar 2025
Towards Sustainable Web Agents: A Plea for Transparency and Dedicated Metrics for Energy Consumption L. Krupp Daniel Geißler P. Lukowicz Jakob Karolus LLMAG 59 0 0 25 Feb 2025
Explorer: Scaling Exploration-driven Web Trajectory Synthesis for Multimodal Web Agents Vardaan Pahuja Yadong Lu Corby Rosset Boyu Gou Arindam Mitra Spencer Whitehead Yu Su Ahmed Awadallah LLMAG LM&Ro Presented at ResearchTrend Connect \| LLMAG on 14 Mar 2025 145 3 1 20 Feb 2025
AgentStudio: A Toolkit for Building General Virtual Agents Longtao Zheng Zhiyuan Huang Zhenghai Xue Xinrun Wang Bo An Shuicheng Yan 75 14 0 17 Feb 2025
TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks Frank F. Xu Yufan Song Boxuan Li Yuxuan Tang Kritanjali Jain ... Wayne Chi Lawrence Jang Yiqing Xie Shuyan Zhou Graham Neubig LLMAG 124 20 0 18 Dec 2024
The BrowserGym Ecosystem for Web Agent Research Thibault Le Sellier De Chezelles Maxime Gasse Alexandre Lacoste Alexandre Drouin Massimo Caccia ... Siva Reddy Quentin Cappart Graham Neubig Ruslan Salakhutdinov Nicolas Chapados LLMAG 96 9 0 06 Dec 2024
CRMArena: Understanding the Capacity of LLM Agents to Perform Professional CRM Tasks in Realistic Environments Kung-Hsiang Huang Akshara Prabhakar Sidharth Dhawan Yixin Mao Huan Wang Silvio Savarese Caiming Xiong Philippe Laban C. Wu 34 7 0 04 Nov 2024
From Context to Action: Analysis of the Impact of State Representation and Context on the Generalization of Multi-Turn Web Navigation Agents Nalin Tiwary Vardhan Dongre Sanil Arun Chawla Ashwin Lamani Dilek Hakkani-Tür LLMAG 21 0 0 31 Oct 2024
Infogent: An Agent-Based Framework for Web Information Aggregation R. Reddy Sagnik Mukherjee Jeonghwan Kim Zhenhailong Wang Dilek Z. Hakkani-Tür Heng Ji 30 7 0 24 Oct 2024
Large Language Models Empowered Personalized Web Agents Hongru Cai Yongqi Li W. Wang Fengbin Zhu Xiaoyu Shen Wenjie Li Tat-Seng Chua LLMAG 41 12 0 22 Oct 2024
Beyond Browsing: API-Based Web Agents Yueqi Song Frank F. Xu Shuyan Zhou Graham Neubig 37 13 0 21 Oct 2024
ST-WebAgentBench: A Benchmark for Evaluating Safety and Trustworthiness in Web Agents Ido Levy Ben wiesel Sami Marreed Alon Oved Avi Yaeli Segev Shlomov LLMAG 29 13 0 09 Oct 2024
MMSearch: Benchmarking the Potential of Large Models as Multi-modal Search Engines Dongzhi Jiang Renrui Zhang Ziyu Guo Yanmin Wu Jiayi Lei ... Guanglu Song Peng Gao Yu Liu Chunyuan Li Hongsheng Li MLLM 27 16 0 19 Sep 2024
WebQuest: A Benchmark for Multimodal QA on Web Page Sequences Maria Wang Srinivas Sunkara Gilles Baechler Jason Lin Yun Zhu Fedir Zubach Lei Shu Jindong Chen LRM LLMAG 16 1 0 06 Sep 2024
From Grounding to Planning: Benchmarking Bottlenecks in Web Agents Segev Shlomov Ben wiesel Aviad Sela Ido Levy Liane Galanti Roy Abitbol LLMAG 30 3 0 03 Sep 2024
OfficeBench: Benchmarking Language Agents across Multiple Applications for Office Automation Zilong Wang Yuedong Cui Li Zhong Zimin Zhang Da Yin Bill Yuchen Lin Jingbo Shang 43 4 0 26 Jul 2024
AssistantBench: Can Web Agents Solve Realistic and Time-Consuming Tasks? Ori Yoran S. Amouyal Chaitanya Malaviya Ben Bogin Ofir Press Jonathan Berant LLMAG 35 30 0 22 Jul 2024
Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? Ruisheng Cao Fangyu Lei Haoyuan Wu Jixuan Chen Yeqiao Fu ... Qian Liu Victor Zhong Lu Chen Kai Yu Tao Yu 25 2 0 15 Jul 2024
CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents Tianqi Xu Linyao Chen Dai-Jie Wu Yanjun Chen Zecheng Zhang ... Shilong Liu Bochen Qian Philip H. S. Torr Bernard Ghanem G. Li 38 14 0 01 Jul 2024
Tree Search for Language Model Agents Jing Yu Koh Stephen Marcus McAleer Daniel Fried Ruslan Salakhutdinov LM&Ro LLMAG LRM 43 56 0 01 Jul 2024
Do Multimodal Foundation Models Understand Enterprise Workflows? A Benchmark for Business Process Management Tasks Michael Wornow A. Narayan Ben T Viggiano Ishan S. Khare Tathagat Verma ... Joshua Martinez Vardhan Agrawal Althea Hudson N. Shah Christopher Ré 30 4 0 19 Jun 2024
WebCanvas: Benchmarking Web Agents in Online Environments Yichen Pan Dehan Kong Sida Zhou Cheng Cui Yifei Leng ... Hangyu Liu Yanyi Shang Shuyan Zhou Tongshuang Wu Zhengyang Wu 21 26 0 18 Jun 2024
AndroidWorld: A Dynamic Benchmarking Environment for Autonomous Agents Christopher Rawles Sarah Clinckemaillie Yifan Chang Jonathan Waltz Gabrielle Lau ... Daniel Toyama Robert Berry Divya Tyamagundlu Timothy Lillicrap Oriana Riva LLMAG 55 44 0 23 May 2024
FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction Hang Hua Jing Shi Kushal Kafle Simon Jenni Daoan Zhang John Collomosse Scott D. Cohen Jiebo Luo CoGe VLM 39 9 0 23 Apr 2024
MMInA: Benchmarking Multihop Multimodal Internet Agents Ziniu Zhang Shulin Tian Liangyu Chen Ziwei Liu LLMAG LM&Ro 27 13 0 15 Apr 2024
Tur[k]ingBench: A Challenge Benchmark for Web Agents Kevin Xu Yeganeh Kordi Kate Sanders Yizhong Wang Adam Byerly Kate Sanders Adam Byerly Jingyu Zhang Benjamin Van Durme Daniel Khashabi LLMAG 60 6 0 18 Mar 2024
BAGEL: Bootstrapping Agents by Guiding Exploration with Language Shikhar Murty Christopher D. Manning Peter Shaw Mandar Joshi Kenton Lee LM&Ro LLMAG 21 14 0 12 Mar 2024
WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work Tasks? Alexandre Drouin Maxime Gasse Massimo Caccia I. Laradji Manuel Del Verme ... Megh Thakkar Quentin Cappart David Vazquez Nicolas Chapados Alexandre Lacoste LLMAG 48 51 0 12 Mar 2024
Large Multimodal Agents: A Survey Junlin Xie Zhihong Chen Ruifei Zhang Xiang Wan Guanbin Li LM&Ro LLMAG 37 4 0 23 Feb 2024
Mobile-Env: Building Qualified Evaluation Benchmarks for LLM-GUI Interaction Danyang Zhang Zhennan Shen Rui Xie Situo Zhang Tianbao Xie ... Siyuan Chen Lu Chen Hongshen Xu Ruisheng Cao Kai Yu ELM LLMAG 24 3 0 14 May 2023
Pix2Struct: Screenshot Parsing as Pretraining for Visual Language Understanding Kenton Lee Mandar Joshi Iulia Turc Hexiang Hu Fangyu Liu Julian Martin Eisenschlos Urvashi Khandelwal Peter Shaw Ming-Wei Chang Kristina Toutanova CLIP VLM 148 259 0 07 Oct 2022
WebFormer: The Web-page Transformer for Structure Information Extraction Qifan Wang Yi Fang Anirudh Ravula Fuli Feng Xiaojun Quan Dongfang Liu ViT 128 65 0 01 Feb 2022
DOM-LM: Learning Generalizable Representations for HTML Documents Xiang Deng Prashant Shiralkar Colin Lockard Binxuan Huang Huan Sun AI4TS AI4CE 32 36 0 25 Jan 2022
Screen Parsing: Towards Reverse Engineering of UI Models from Screenshots Jason Wu Xiaoyi Zhang Jeffrey Nichols Jeffrey P. Bigham 3DV 151 72 0 17 Sep 2021
Simplified DOM Trees for Transferable Attribute Extraction from the Web Yichao Zhou Ying Sheng N. Vo Nick Edmonds Sandeep Tata 119 27 0 07 Jan 2021