Title
AgentBay: A Hybrid Interaction Sandbox for Seamless Human-AI Intervention in Agentic Systems Yun Piao Hongbo Min Hang Su L. Zhang Lei Wang ... Jing Zhao J. Li Jie Shen Jinkui Ren Xiantao Zhang LLMAG 120 0 0 04 Dec 2025
WebGen-V Bench: Structured Representation for Enhancing Visual Design in LLM-based Web Generation and Evaluation Kuang-Da Wang Zhao Wang Yotaro Shimose Wei-Yao Wang Shingo Takamatsu 3DV 100 0 0 17 Oct 2025
Limited-Angle Tomography Reconstruction via Projector Guided 3D Diffusion Zhantao Deng Mériem Er-Rafik Anna Sushko C. Hébert Pascal Fua DiffM MedIm 100 0 0 07 Oct 2025
BrowserArena: Evaluating LLM Agents on Real-World Web Navigation Tasks Sagnik Anupam Davis Brown Shuo Li Eric Wong Hamed Hassani Osbert Bastani LLMAG ELM 195 1 0 02 Oct 2025
ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory Siru Ouyang Jun Yan I-Hung Hsu Yanfei Chen Ke Jiang ... Mahsan Rofouei Hangfei Lin Jiawei Han Chen-Yu Lee Tomas Pfister LLMAG CLL LRM 132 10 0 29 Sep 2025
ComputerRL: Scaling End-to-End Online Reinforcement Learning for Computer Use Agents Hanyu Lai Xiao-Chang Liu Yanxiao Zhao Han Xu Hanchen Zhang Bohao Jing Yanyu Ren Shuntian Yao Yuxiao Dong Jie Tang OffRL 156 11 0 19 Aug 2025
WebMall - A Multi-Shop Benchmark for Evaluating Web Agents [Technical Report] Ralph Peeters Aaron Steiner Luca Schwarz Julian Yuya Caspary Christian Bizer 172 2 0 18 Aug 2025
ArtifactsBench: Bridging the Visual-Interactive Gap in LLM Code Generation Evaluation Chenchen Zhang Yuhang Li Can Xu Jiaheng Liu Ao Liu ... Zenan Xu Yuanxing Zhang Wiggin Zhou Chayse Zhou Fengzong Lian 139 8 0 07 Jul 2025