Title
Training High-Level Schedulers with Execution-Feedback Reinforcement Learning for Long-Horizon GUI Automation Zehao Deng Tianjie Ju Zheng Wu Zhuosheng Zhang Gongshen Liu OffRL 40 0 0 27 Nov 2025
AppSelectBench: Application-Level Tool Selection Benchmark Tianyi Chen Michael Solodko Sen Wang Jongwoo Ko Junheng Hao ... Suzhen Zheng Hao Fan Justin Wagle Pashmina Cameron K. Koishida ELM 88 0 0 25 Nov 2025
Fara-7B: An Efficient Agentic Model for Computer Use Ahmed Awadallah Yash Lara Raghav Magazine Hussein Mozannar Akshay Nambi ... Corby Rosset Alexey Taymanov Vibhav Vineet Spencer Whitehead Andrew Zhao 60 0 0 24 Nov 2025
IPR-1: Interactive Physical Reasoner Mingyu Zhang Lifeng Zhuo Tianxi Tan Guocan Xie Xian Nie ... Renjie Zhao Zizhu He Z. Wang Jiting Cai Yong-Lu Li PINN LRM AI4CE 314 0 0 19 Nov 2025
Klear-AgentForge: Forging Agentic Intelligence through Posttraining Scaling Qi Wang Hongzhi Zhang Jia-Yi Fu Kai Fu Yahui Liu ... Yang Yue J. Zhang Fuzheng Zhang Kun Gai Guorui Zhou 62 0 0 08 Nov 2025
Learning from Online Videos at Inference Time for Computer-Use Agents Yujian Liu Ze Wang Hao Chen Ximeng Sun X. Yu J. Wu Jiang-Long Liu Emad Barsoum Zicheng Liu Shiyu Chang 145 0 0 06 Nov 2025
Interaction as Intelligence Part II: Asynchronous Human-Agent Rollout for Long-Horizon Task Training Dayuan Fu Yunze Wu Xiaojie Cai Lyumanshan Ye Shijie Xia ... Junfei Wang Qishuo Hua Pengrui Lu Yang Xiao Pengfei Liu 119 0 0 31 Oct 2025
Tongyi DeepResearch Technical Report Tongyi DeepResearch Team Baixuan Li Bo Zhang Dingchu Zhang Fei Huang ... Yuning Wu Y. Wu Zhuo Chen Zijian Li Yong Jiang LLMAG 101 1 0 28 Oct 2025
Game-TARS: Pretrained Foundation Models for Scalable Generalist Multimodal Game Agents Zihao Wang X. Li Yining Ye Junjie Fang Haoming Wang ... Shi Yan Xiangyang Li Yitao Liang Yujia Qin Guang Shi LLMAG LM&Ro AI4CE 132 3 0 27 Oct 2025
UI-Ins: Enhancing GUI Grounding with Multi-Perspective Instruction-as-Reasoning Liangyu Chen Zhengyu Ma C. Cai J. Zhang Panrong Tong ... Yuqi Liu Wenxuan Wang Yue Wang Qin Jin Steven C. H. Hoi LRM 88 3 0 23 Oct 2025
SALT: Step-level Advantage Assignment for Long-horizon Agents via Trajectory Graph Jiazheng Li Y. X. R. Wang David Yan Yijun Tian Zhichao Xu Huan Song Panpan Xu Lin Lee Cheong 91 0 0 22 Oct 2025
ColorAgent: Building A Robust, Personalized, and Interactive OS Agent Ning Li Qiqiang Lin Zheng Wu Xiaoyun Mo Weiming Zhang ... Xingyu Lou Jun Wang Weiwen Liu Zhuosheng Zhang Weinan Zhang LLMAG VLM 157 0 0 22 Oct 2025
Surfer 2: The Next Generation of Cross-Platform Computer Use Agents M. Andreux Märt Bakler Yanael Barbier Hamza Ben Chekroun Emilien Biré ... Ivan Valentini Tony Wu Laura Yie Kai Yuan Jevgenij Zubovskij LLMAG LRM 103 0 0 22 Oct 2025
VideoAgentTrek: Computer Use Pretraining from Unlabeled Videos Dunjie Lu Yiheng Xu Junli Wang Haoyuan Wu Xinyuan Wang ... Yuchen Mao J. Zhou Junyang Lin Binyuan Hui Tao Yu 75 2 0 22 Oct 2025
CUARewardBench: A Benchmark for Evaluating Reward Models on Computer-using Agent Haojia Lin Xiaoyu Tan Yulei Qin Zihan Xu Yuchen Shi ... Shaofei Cai Siqi Cai Chaoyou Fu Ke Li Xing Sun ALM 127 1 0 21 Oct 2025
Search Self-play: Pushing the Frontier of Agent Capability without Supervision Hongliang Lu Yuhang Wen Pengyu Cheng Ruijin Ding Haotian Xu Jiaqi Guo Chutian Wang Haonan Chen Xiaoxi Jiang Guanjun Jiang LRM 92 2 0 21 Oct 2025
UltraCUA: A Foundation Model for Computer Use Agents with Hybrid Action Yuhao Yang Zhen Yang Zi-Yi Dou Anh Nguyen Keen You ... Ram Ramrakhya Alexander Toshev Chao Huang Yinfei Yang Zhe Gan LLMAG 257 2 0 20 Oct 2025
HackWorld: Evaluating Computer-Use Agents on Exploiting Web Application Vulnerabilities Xiaoxue Ren Penghao Jiang Kaixin Li Zhiyong Huang Xiaoning Du Jiaojiao Jiang Zhenchang Xing Jiamou Sun Terry Yue Zhuo 84 0 0 14 Oct 2025
A Survey on Agentic Multimodal Large Language Models Huanjin Yao Ruifei Zhang Jiaxing Huang Jingyi Zhang Yibo Wang ... Ruolin Zhu Yongcheng Jing Shunyu Liu Guanbin Li Dacheng Tao LM&Ro AIFin AI4TS LRM AI4CE 221 4 0 13 Oct 2025
R-WoM: Retrieval-augmented World Model For Computer-use Agents Kai Mei Jiang Guo Shuaichen Chang Mingwen Dong Dongkyu Lee Xing Niu Jiarong Jiang 92 0 0 13 Oct 2025
Spatial CAPTCHA: Generatively Benchmarking Spatial Reasoning for Human-Machine Differentiation Arina Kharlamova Bowei He Chen Ma Xue Liu AAML LRM 112 0 0 04 Oct 2025
The Unreasonable Effectiveness of Scaling Agents for Computer Use Gonzalo Gonzalez-Pumariega Vincent Tu Chih-Lun Lee Jiachen Yang Ang Li Xin Eric Wang 120 3 0 02 Oct 2025
Just Do It!? Computer-Use Agents Exhibit Blind Goal-Directedness Erfan Shayegani Keegan Hines Yue Dong Nael B. Abu-Ghazaleh Roman Lutz Spencer Whitehead Vidhisha Balachandran Besmira Nushi Vibhav Vineet 124 0 0 02 Oct 2025
SCUBA: Salesforce Computer Use Benchmark Yutong Dai Krithika Ramakrishnan Jing Gu M. Fernández Yanqi Luo ... Zhenyu Hu Silvio Savarese Caiming Xiong Zeyuan Chen Ran Xu ELM 147 1 0 30 Sep 2025
Ferret-UI Lite: Lessons from Building Small On-Device GUI Agents Zhen Yang Zi-Yi Dou Di Feng Forrest Huang Anh Nguyen ... Chao Jia Jeffrey Nichols Alexander Toshev Yinfei Yang Zhe Gan LLMAG 115 2 0 30 Sep 2025
Efficient Multi-turn RL for GUI Agents via Decoupled Training and Adaptive Data Curation P. Li Zechen Hu Zirui Shang J. Wu Y. Liu ... Xinxiao Wu Yunde Jia Liuyu Xiang Zhaofeng He Qing Li OffRL 115 1 0 28 Sep 2025
ProRe: A Proactive Reward System for GUI Agents via Reasoner-Actor Collaboration Gaole Dai Shiqi Jiang Ting Cao Yuqing Yang Yuanchun Li Rui Tan Mo Li Lili Qiu LRM 120 0 0 26 Sep 2025
WebSailor-V2: Bridging the Chasm to Proprietary Agents via Synthetic Data and Scalable Reinforcement Learning Kuan Li Zhongwang Zhang Huifeng Yin Rui Ye Yida Zhao ... Zhen Zhang Yong Jiang Pengjun Xie Fei Huang Jingren Zhou 133 17 0 16 Sep 2025
Agentic Lybic: Multi-Agent Execution System with Tiered Reasoning and Orchestration Liangxuan Guo Bin Zhu Qingqian Tao Kangning Liu Xun Zhao Xianzhe Qin Jin Gao Guangfu Hao 253 1 0 14 Sep 2025
OpenHA: A Series of Open-Source Hierarchical Agentic Models in Minecraft Zihao Wang Muyao Li K. He Xiangyu Wang Zhancun Mu Anji Liu Yitao Liang LM&Ro 120 2 0 13 Sep 2025
RedTeamCUA: Realistic Adversarial Testing of Computer-Use Agents in Hybrid Web-OS Environments Zeyi Liao Jaylen Jones Linxi Jiang Eric Fosler-Lussier Eric Fosler-Lussier Yu-Chuan Su Zhiqiang Lin Huan Sun ELM 383 10 0 28 May 2025