WebShop: Towards Scalable Real-World Web Interaction with Grounded Language Agents

4 July 2022

Papers citing "WebShop: Towards Scalable Real-World Web Interaction with Grounded Language Agents"

50 / 67 papers shown

Title
OSUniverse: Benchmark for Multimodal GUI-navigation AI Agents Mariya Davydova Daniel Jeffries Patrick Barker Arturo Márquez Flores Sinéad Ryan LLMAG 23 0 0 06 May 2025
VLM Q-Learning: Aligning Vision-Language Models for Interactive Decision-Making Jake Grigsby Yuke Zhu Michael S Ryoo Juan Carlos Niebles OffRL VLM 31 0 0 06 May 2025
Visual Test-time Scaling for GUI Agent Grounding Tiange Luo Lajanugen Logeswaran Justin Johnson Honglak Lee 48 0 0 01 May 2025
Skill Discovery for Software Scripting Automation via Offline Simulations with LLMs Paiheng Xu Gang Wu Xiang Chen Tong Yu Chang Xiao Franck Dernoncourt Tianyi Zhou Wei Ai Viswanathan Swaminathan OffRL 50 0 0 29 Apr 2025
Toward Generalizable Evaluation in the LLM Era: A Survey Beyond Benchmarks Yixin Cao Shibo Hong X. Li Jiahao Ying Yubo Ma ... Juanzi Li Aixin Sun Xuanjing Huang Tat-Seng Chua Yu Jiang ALM ELM 84 0 0 26 Apr 2025
RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning Z. Wang K. Wang Q. Wang Pingyue Zhang Linjie Li ... Jiajun Wu L. Fei-Fei Lijuan Wang Yejin Choi Manling Li 76 1 0 24 Apr 2025
WebEvolver: Enhancing Web Agent Self-Improvement with Coevolving World Model Tianqing Fang H. M. Zhang Z. Zhang Kaixin Ma W. Yu Haitao Mi Dong Yu LLMAG KELM 111 0 0 23 Apr 2025
MARFT: Multi-Agent Reinforcement Fine-Tuning Junwei Liao Muning Wen J. Wang W. Zhang OffRL 23 0 0 21 Apr 2025
Exploring Expert Failures Improves LLM Agent Tuning Li-Cheng Lan Andrew Bai Minhao Cheng Ruochen Wang Cho-Jui Hsieh LRM 62 0 0 17 Apr 2025
Safe Screening Rules for Group OWL Models Runxue Bao Quanchao Lu Yanfu Zhang 34 0 0 04 Apr 2025
Exploiting Fine-Grained Skip Behaviors for Micro-Video Recommendation Sanghyuck Lee Sangkeun Park Jaesung Lee 48 0 0 04 Apr 2025
An Illusion of Progress? Assessing the Current State of Web Agents Tianci Xue Weijian Qi Tianneng Shi Chan Hee Song Boyu Gou D. Song Huan Sun Yu Su LLMAG ELM 82 4 1 02 Apr 2025
Recitation over Reasoning: How Cutting-Edge Language Models Can Fail on Elementary School-Level Reasoning Problems? Kai Yan Yufei Xu Zhengyin Du Xuesong Yao Z. Wang Xiaowen Guo Jiecao Chen ReLM ELM LRM 90 3 0 01 Apr 2025
UI-Vision: A Desktop-centric GUI Benchmark for Visual Perception and Interaction Shravan Nayak Xiangru Jian Kevin Qinghong Lin Juan A. Rodriguez Montek Kalsi ... David Vazquez Christopher Pal Perouz Taslakian Spandana Gella Sai Rajeswar 88 0 0 19 Mar 2025
VisEscape: A Benchmark for Evaluating Exploration-driven Decision-making in Virtual Escape Rooms Seungwon Lim Sungwoong Kim Jihwan Yu Sungjae Lee Jiwan Chung Youngjae Yu 64 1 0 18 Mar 2025
Plan-and-Act: Improving Planning of Agents for Long-Horizon Tasks Lutfi Eren Erdogan Nicholas Lee Sehoon Kim Suhong Moon Hiroki Furuta Gopala Anumanchipalli K. K. Amir Gholami LLMAG LM&Ro AIFin 76 2 0 12 Mar 2025
A Practical Memory Injection Attack against LLM Agents Shen Dong Shaocheng Xu Pengfei He Y. Li Jiliang Tang Tianming Liu Hui Liu Zhen Xiang LLMAG AAML 43 2 0 05 Mar 2025
SpiritSight Agent: Advanced GUI Agent with One Look Zhiyuan Huang Ziming Cheng Junting Pan Zhaohui Hou Mingjie Zhan LLMAG 93 2 0 05 Mar 2025
Generator-Assistant Stepwise Rollback Framework for Large Language Model Agent Xingzuo Li Kehai Chen Yunfei Long X. Bai Yong-mei Xu Min Zhang LRM LLMAG 79 1 0 04 Mar 2025
EDGE: Efficient Data Selection for LLM Agents via Guideline Effectiveness Yunxiao Zhang Guanming Xiong Haochen Li Wen Zhao LLMAG 62 0 0 18 Feb 2025
InfoQuest: Evaluating Multi-Turn Dialogue Agents for Open-Ended Conversations with Hidden Context Bryan L. M. de Oliveira Luana G. B. Martins Bruno Brandão L. Melo ELM 92 1 0 17 Feb 2025
AgentStudio: A Toolkit for Building General Virtual Agents Longtao Zheng Zhiyuan Huang Zhenghai Xue Xinrun Wang Bo An Shuicheng Yan 75 14 0 17 Feb 2025
WebRL: Training LLM Web Agents via Self-Evolving Online Curriculum Reinforcement Learning Zehan Qi Xiao-Chang Liu Iat Long Iong Hanyu Lai X. Sun ... Shuntian Yao Tianjie Zhang Wei Xu J. Tang Yuxiao Dong 93 14 0 28 Jan 2025
Exposing Limitations of Language Model Agents in Sequential-Task Compositions on the Web Hiroki Furuta Yutaka Matsuo Aleksandra Faust Izzeddin Gur CLL 82 13 0 03 Jan 2025
Cocoa: Co-Planning and Co-Execution with AI Agents K. J. Kevin Feng Kevin Pu Matt Latzke Tal August Pao Siangliulue Jonathan Bragg Daniel S. Weld Amy X. Zhang Joseph Chee Chang LM&Ro LLMAG 87 4 0 14 Dec 2024
The BrowserGym Ecosystem for Web Agent Research Thibault Le Sellier De Chezelles Maxime Gasse Alexandre Lacoste Alexandre Drouin Massimo Caccia ... Siva Reddy Quentin Cappart Graham Neubig Ruslan Salakhutdinov Nicolas Chapados LLMAG 96 9 0 06 Dec 2024
BALROG: Benchmarking Agentic LLM and VLM Reasoning On Games Davide Paglieri Bartłomiej Cupiał Samuel Coward Ulyana Piterbarg Maciej Wolczyk ... Lerrel Pinto Rob Fergus Jakob Foerster Jack Parker-Holder Tim Rocktaschel LLMAG LRM 101 10 0 20 Nov 2024
Interacting Large Language Model Agents. Interpretable Models and Social Learning Adit Jain Vikram Krishnamurthy LLMAG 28 0 0 02 Nov 2024
Adapting While Learning: Grounding LLMs for Scientific Problems with Intelligent Tool Usage Adaptation Bohan Lyu Yadi Cao Duncan Watson-Parris Leon Bergen Taylor Berg-Kirkpatrick Rose Yu 55 3 0 01 Nov 2024
VideoWebArena: Evaluating Long Context Multimodal Agents with Video Understanding Web Tasks Lawrence Jang Yinheng Li Charles Ding Justin Lin Paul Pu Liang Dan Zhao Rogerio Bonatti K. Koishida 31 5 0 24 Oct 2024
Ferret-UI 2: Mastering Universal User Interface Understanding Across Platforms Zhangheng Li Keen You H. Zhang Di Feng Harsh Agrawal Xiujun Li Mohana Prasad Sathya Moorthy Jeff Nichols Y. Yang Zhe Gan MLLM 48 18 0 24 Oct 2024
Lightweight Neural App Control Filippos Christianos Georgios Papoudakis Thomas Coste Jianye Hao Jun Wang Kun Shao LM&Ro 44 4 0 23 Oct 2024
Large Language Models Empowered Personalized Web Agents Hongru Cai Yongqi Li W. Wang Fengbin Zhu Xiaoyu Shen Wenjie Li Tat-Seng Chua LLMAG 41 12 0 22 Oct 2024
Beyond Browsing: API-Based Web Agents Yueqi Song Frank F. Xu Shuyan Zhou Graham Neubig 43 13 0 21 Oct 2024
Web Agents with World Models: Learning and Leveraging Environment Dynamics in Web Navigation Hyungjoo Chae Namyoung Kim Kai Tzu-iunn Ong Minju Gwak Gwanwoo Song Jihoon Kim S. Kim Dongha Lee Jinyoung Yeo LLMAG 30 13 0 17 Oct 2024
AgentBank: Towards Generalized LLM Agents via Fine-Tuning on 50000+ Interaction Trajectories Yifan Song Weimin Xiong Xiutian Zhao Dawei Zhu Wenhao Wu Ke Wang Cheng Li Wei Peng Sujian Li LLMAG 24 9 0 10 Oct 2024
StablePrompt: Automatic Prompt Tuning using Reinforcement Learning for Large Language Models Minchan Kwon Gaeun Kim Jongsuk Kim Haeil Lee Junmo Kim OffRL LRM LLMAG 16 1 0 10 Oct 2024
AgentSquare: Automatic LLM Agent Search in Modular Design Space Yu Shang Yu Li Keyu Zhao Likai Ma J. Liu Fengli Xu Yong Li LLMAG 34 8 0 08 Oct 2024
Self-evolving Agents with reflective and memory-augmented abilities Xuechen Liang Yangfan He Yinghui Xia Xinyuan Song Jianhui Wang ... Keqin Li Jiaqi Chen Jinsong Yang Siyuan Chen Tianyu Shi LLMAG KELM CLL 33 2 0 01 Sep 2024
ToolSandbox: A Stateful, Conversational, Interactive Evaluation Benchmark for LLM Tool Use Capabilities Jiarui Lu Thomas Holleis Yizhe Zhang Bernhard Aumayer Feng Nan ... Shen Ma Mengyu Li Guoli Yin Zirui Wang Ruoming Pang LLMAG ELM 34 28 0 08 Aug 2024
AI Agents That Matter Sayash Kapoor Benedikt Stroebl Zachary S. Siegel Nitya Nadgir Arvind Narayanan 38 32 0 01 Jul 2024
Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement Weimin Xiong Yifan Song Xiutian Zhao Wenhao Wu Xun Wang Ke Wang Cheng Li Wei Peng Sujian Li 37 25 0 17 Jun 2024
VideoGUI: A Benchmark for GUI Automation from Instructional Videos Kevin Qinghong Lin Linjie Li Difei Gao Qinchen Wu Mingyi Yan Zhengyuan Yang Lijuan Wang Mike Zheng Shou 39 10 0 14 Jun 2024
Learning to Discuss Strategically: A Case Study on One Night Ultimate Werewolf Xuanfa Jin Ziyan Wang Yali Du Meng Fang Haifeng Zhang Jun Wang OffRL LLMAG 46 5 0 30 May 2024
Agent Planning with World Knowledge Model Shuofei Qiao Runnan Fang Ningyu Zhang Yuqi Zhu Xiang Chen Shumin Deng Yong-jia Jiang Pengjun Xie Fei Huang Huajun Chen LLMAG LM&Ro 74 14 0 23 May 2024
MMInA: Benchmarking Multihop Multimodal Internet Agents Ziniu Zhang Shulin Tian Liangyu Chen Ziwei Liu LLMAG LM&Ro 27 13 0 15 Apr 2024
ChatShop: Interactive Information Seeking with Language Agents Sanxing Chen Sam Wiseman Bhuwan Dhingra KELM 21 7 0 15 Apr 2024
CMAT: A Multi-Agent Collaboration Tuning Framework for Enhancing Small Language Models Xuechen Liang Meiling Tao Yinghui Xia Yiting Xie Jun Wang JingSong Yang LLMAG 18 12 0 02 Apr 2024
Tur[k]ingBench: A Challenge Benchmark for Web Agents Kevin Xu Yeganeh Kordi Kate Sanders Yizhong Wang Adam Byerly Kate Sanders Adam Byerly Jingyu Zhang Benjamin Van Durme Daniel Khashabi LLMAG 64 6 0 18 Mar 2024
StableToolBench: Towards Stable Large-Scale Benchmarking on Tool Learning of Large Language Models Zhicheng Guo Sijie Cheng Hao Wang Shihao Liang Yujia Qin Peng Li Zhiyuan Liu Maosong Sun Yang Janet Liu ELM 41 22 0 12 Mar 2024