GUI Action Narrator: Where and When Did That Action Take Place?

GUI Action Narrator: Where and When Did That Action Take Place?

19 June 2024

Difei Gao

Kevin Qinghong Lin

Mike Zheng Shou

Papers citing "GUI Action Narrator: Where and When Did That Action Take Place?"

6 / 6 papers shown

Title
EcoAgent: An Efficient Edge-Cloud Collaborative Multi-Agent Framework for Mobile Automation Biao Yi Xavier Hu Y. Chen Shengyu Zhang Hongxia Yang Fan Wu Fei Wu LLMAG 41 0 0 08 May 2025
ScreenAgent: A Vision Language Model-driven Computer Control Agent Runliang Niu Jindong Li Shiqi Wang Yali Fu Xiyu Hu Xueyuan Leng He Kong Yi Chang Qi Wang LLMAG MLLM LM&Ro 49 9 0 09 Feb 2024
SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents Kanzhi Cheng Qiushi Sun Yougang Chu Fangzhi Xu Yantao Li Jianbing Zhang Zhiyong Wu LLMAG 162 137 0 17 Jan 2024
CogAgent: A Visual Language Model for GUI Agents Wenyi Hong Weihan Wang Qingsong Lv Jiazheng Xu Wenmeng Yu ... Juanzi Li Bin Xu Yuxiao Dong Ming Ding Jie Tang MLLM 132 310 0 14 Dec 2023
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Junnan Li Dongxu Li Silvio Savarese Steven C. H. Hoi VLM MLLM 244 4,186 0 30 Jan 2023
You Only Look Once: Unified, Real-Time Object Detection Joseph Redmon S. Divvala Ross B. Girshick Ali Farhadi ObjD 266 35,677 0 08 Jun 2015