LlamaTouch: A Faithful and Scalable Testbed for Mobile UI Automation Task Evaluation

12 April 2024

Mengwei Xu

Papers citing "LlamaTouch: A Faithful and Scalable Testbed for Mobile UI Automation Task Evaluation"

3 / 3 papers shown

Title
SPA-Bench: A Comprehensive Benchmark for SmartPhone Agent Evaluation Jingxuan Chen Derek Yuen Bin Xie Y. Yang Gongwei Chen ... Liqiang Nie Yasheng Wang Jianye Hao Jun Wang Kun Shao LLMAG 38 5 0 19 Oct 2024
CogAgent: A Visual Language Model for GUI Agents Wenyi Hong Weihan Wang Qingsong Lv Jiazheng Xu Wenmeng Yu ... Juanzi Li Bin Xu Yuxiao Dong Ming Ding Jie Tang MLLM 137 310 0 14 Dec 2023
Can Large Language Models Be an Alternative to Human Evaluations? Cheng-Han Chiang Hung-yi Lee ALM LM&MA 209 559 0 03 May 2023