Covering Human Action Space for Computer Use: Data Synthesis and Benchmark

TL;DR

CUActSpot基准测试通过数据合成和多模态评估提升GUI复杂交互性能，Phi-Ground-Any-4B模型表现优异。

cs.CV 🔴 高级 2026-05-13 72 次浏览

Miaosen Zhang Xiaohan Zhao Zhihong Tan Zhou Huoshen Yijia Fan Yifan Yang Kai Qiu Bei Liu Justin Wagle Chenzhong Yin Mingxi Cheng Ji Li Qi Dai Chong Luo Xu Yang Xin Geng Baining Guo

AI 阅读器 Arxiv 原文下载 PDF

数据合成基准测试多模态复杂交互 GUI操作

核心发现

方法论

本文提出了一种新的基准测试CUActSpot，用于评估模型在复杂GUI交互中的能力。CUActSpot涵盖五种模态：GUI、文本、表格、画布和自然图像，支持多种操作类型（点击、拖动、绘制等）。此外，设计了一种基于渲染器的数据合成管道，通过自动生成场景、记录截图和元素坐标，并使用大语言模型生成匹配的指令和操作轨迹。

关键结果

结果1：Phi-Ground-Any-4B模型在CUActSpot基准测试中表现优异，超过了所有参数少于32B的开源模型，显示出在复杂交互任务中的显著优势。
结果2：通过数据合成管道生成的50M样本显著提高了模型的训练效果，尤其是在多模态交互能力上的提升。
结果3：实验表明，增加数据的多样性比单一模态的数据规模扩展更能提高模型的通用交互能力。

研究意义

本研究通过引入CUActSpot基准测试和数据合成管道，解决了当前GUI操作中复杂交互评估和数据稀缺的问题。这一工作不仅为学术界提供了一个更贴近实际应用场景的评估工具，也为工业界在开发更智能的计算机使用代理提供了数据支持和技术参考。

技术贡献

技术贡献包括：1) 提出了一种新的基准测试CUActSpot，涵盖更广泛的交互类型；2) 设计了一种基于渲染器的数据合成管道，能够自动生成多模态交互数据；3) 通过实验验证了数据多样性对模型通用交互能力的提升效果。

新颖性

CUActSpot是第一个专注于复杂GUI交互的基准测试，涵盖了比以往基准测试更广泛的交互类型。与现有的点击为中心的基准测试不同，CUActSpot更贴近实际应用场景，能够更准确地评估模型的实际操作能力。

局限性

局限1：尽管CUActSpot涵盖了多种交互类型，但仍可能无法完全涵盖所有实际应用场景中的复杂交互。
局限2：数据合成管道生成的数据可能存在与真实数据不一致的情况，从而影响模型在真实场景中的表现。
局限3：当前的模型在处理极端复杂的多模态交互时仍存在性能瓶颈。

未来方向

未来的研究方向包括：1) 扩展CUActSpot基准测试以涵盖更多实际应用场景中的交互类型；2) 优化数据合成管道以生成更接近真实场景的数据；3) 开发更高效的模型以处理极端复杂的多模态交互。

AI 总览摘要

近年来，计算机使用代理（CUA）在自动化屏幕操作方面取得了显著进展。然而，现有的模型在处理复杂的低频交互时仍然表现不佳，限制了用户的信任。为了应对这一挑战，研究人员提出了一种新的基准测试CUActSpot，用于评估模型在复杂交互中的能力。

CUActSpot涵盖了五种模态：GUI、文本、表格、画布和自然图像，并支持多种操作类型，如点击、拖动和绘制。与以往主要关注GUI小部件点击的基准测试不同，CUActSpot更贴近实际应用场景，能够更准确地评估模型的实际操作能力。

为了生成用于训练的复杂交互数据，研究人员设计了一种基于渲染器的数据合成管道。该管道能够自动生成每种模态的场景，记录截图和元素坐标，并使用大语言模型生成匹配的指令和操作轨迹。通过这种方法，研究人员生成了50M样本用于模型的预训练或中期训练。

实验结果表明，经过训练的Phi-Ground-Any-4B模型在CUActSpot基准测试中表现优异，超过了所有参数少于32B的开源模型。此外，研究还发现，增加数据的多样性比单一模态的数据规模扩展更能提高模型的通用交互能力。

这一研究不仅为学术界提供了一个更贴近实际应用场景的评估工具，也为工业界在开发更智能的计算机使用代理提供了数据支持和技术参考。未来的研究方向包括扩展CUActSpot基准测试以涵盖更多实际应用场景中的交互类型，以及优化数据合成管道以生成更接近真实场景的数据。

深度分析

研究背景

计算机使用代理（CUA）是通过自动化屏幕操作来提高生产力的关键技术方向。传统的CUA主要分为基于命令行界面（CLI）和图形用户界面（GUI）两种模式。相比于CLI，GUI具有跨平台通用性强、用户友好等优势。然而，现有的GUI操作模型在处理复杂交互时仍存在显著不足，尤其是在涉及多模态和低频交互的场景中。近年来，尽管出现了一些挑战性较高的GUI基准测试，但这些测试往往集中于单一点击操作，未能充分反映实际应用中的复杂交互需求。

核心问题

现有的GUI操作模型在处理复杂的低频交互时表现不佳，主要原因在于缺乏针对复杂交互的评估基准和大规模数据集。这种不足导致模型在实际应用中容易出现操作失败，尤其是在涉及多模态交互的场景中。为了提高模型的实际操作能力，亟需开发新的基准测试和数据生成方法，以涵盖更广泛的交互类型。

核心创新

本文的核心创新包括：1) 提出了一种新的基准测试CUActSpot，涵盖五种模态和多种操作类型，能够更准确地评估模型的复杂交互能力；2) 设计了一种基于渲染器的数据合成管道，能够自动生成多模态交互数据，为模型的训练提供了丰富的数据支持；3) 通过实验验证了数据多样性对模型通用交互能力的提升效果，指出了未来研究的方向。

方法详解

�� 提出CUActSpot基准测试，涵盖五种模态：GUI、文本、表格、画布和自然图像。
�� 设计数据合成管道，自动生成每种模态的场景，记录截图和元素坐标。
�� 使用大语言模型生成匹配的指令和操作轨迹。
�� 生成50M样本用于模型的预训练或中期训练。
�� 实验验证数据多样性对模型通用交互能力的提升效果。

实验设计

实验设计包括使用CUActSpot基准测试评估模型的复杂交互能力。研究人员生成了50M样本用于模型的预训练或中期训练，并对比了不同数据组成对模型性能的影响。实验中使用了多种基准测试，如ScreenSpot-Pro和UI-Vision，以验证模型在不同场景下的表现。通过消融实验，研究人员分析了数据多样性和数据规模对模型性能的影响。

结果分析

实验结果表明，经过训练的Phi-Ground-Any-4B模型在CUActSpot基准测试中表现优异，超过了所有参数少于32B的开源模型。此外，研究还发现，增加数据的多样性比单一模态的数据规模扩展更能提高模型的通用交互能力。通过消融实验，研究人员进一步验证了数据多样性对模型性能的显著提升效果。

应用场景

CUActSpot基准测试和数据合成管道可以直接应用于评估和训练计算机使用代理，尤其是在涉及多模态和复杂交互的场景中。工业界可以利用这一工具开发更智能的自动化软件，以提高生产力和用户体验。此外，研究结果还可以为学术界提供新的研究方向和技术参考。

局限与展望

尽管CUActSpot涵盖了多种交互类型，但仍可能无法完全涵盖所有实际应用场景中的复杂交互。此外，数据合成管道生成的数据可能存在与真实数据不一致的情况，从而影响模型在真实场景中的表现。当前的模型在处理极端复杂的多模态交互时仍存在性能瓶颈，需要进一步优化。

通俗解读非专业人士也能看懂

想象你在厨房准备一顿大餐。传统的基准测试就像只让你煮一锅米饭，而CUActSpot则要求你准备一整桌菜肴，包括炒菜、煲汤和烤蛋糕。CUActSpot就像一个全面的食谱，指导你如何准备各种菜肴。为了帮助你更好地掌握这些技能，研究人员设计了一种数据合成方法，就像提供了一套虚拟的厨房工具，让你可以在虚拟环境中练习做菜。通过不断练习，你不仅能掌握每道菜的做法，还能提高整体的烹饪技能。最终，你将能够在任何厨房中自如地准备各种美食，而不仅限于某一种特定的菜肴。

简单解释像给14岁少年讲一样

嘿，小伙伴！想象一下你在玩一个超级复杂的游戏，需要同时操作多个角色。现有的游戏教程只教你怎么点击一个按钮，但我们的CUActSpot就像一个全新的游戏指南，教你如何在不同场景中操作角色，比如拖动、绘制和点击。为了让你更快上手，我们还设计了一种虚拟训练场景，就像一个模拟游戏环境，让你可以反复练习各种操作。经过一段时间的训练，你不仅能在游戏中轻松应对各种挑战，还能成为一个游戏高手，甚至可以帮助其他玩家解决难题。是不是很酷？

术语表

CUActSpot (计算机使用动作空间覆盖)

CUActSpot是一个新的基准测试，用于评估模型在复杂GUI交互中的能力，涵盖五种模态和多种操作类型。

用于评估模型在复杂交互中的表现。

数据合成管道

一种基于渲染器的数据生成方法，能够自动生成多模态交互数据，为模型的训练提供支持。

用于生成训练数据。

Phi-Ground-Any-4B

一种经过训练的模型，在CUActSpot基准测试中表现优异，超过了所有参数少于32B的开源模型。

用于评估模型性能。

多模态

涉及多种数据模态，如GUI、文本、表格、画布和自然图像，支持多种操作类型。

用于评估模型在不同模态下的表现。

复杂交互

涉及多种操作类型的复杂GUI交互，如点击、拖动和绘制。

用于评估模型的实际操作能力。

大语言模型 (LLM)

一种用于生成匹配指令和操作轨迹的模型，支持数据合成管道。

用于生成训练数据。

ScreenSpot-Pro

一个现有的GUI基准测试，主要关注单一点击操作。

用于对比CUActSpot的表现。

UI-Vision

一个现有的GUI基准测试，主要关注单一点击操作。

用于对比CUActSpot的表现。

消融实验

一种通过去除或改变实验条件来分析模型性能的方法。

用于验证数据多样性对模型性能的影响。

自然图像

一种数据模态，涉及在自然图像上的操作，如点击或拖动特定图像区域。

用于评估模型在自然图像上的表现。

开放问题这项研究留下的未解疑问

1 开放问题1：尽管CUActSpot涵盖了多种交互类型，但仍可能无法完全涵盖所有实际应用场景中的复杂交互。未来的研究需要进一步扩展基准测试以涵盖更多实际应用场景。
2 开放问题2：数据合成管道生成的数据可能存在与真实数据不一致的情况，从而影响模型在真实场景中的表现。需要开发更先进的数据生成方法以提高数据的真实性。
3 开放问题3：当前的模型在处理极端复杂的多模态交互时仍存在性能瓶颈。需要进一步优化模型结构和训练方法以提高性能。
4 开放问题4：如何在不增加计算成本的情况下提高模型的通用交互能力？需要探索新的模型架构和训练策略。
5 开放问题5：如何在不同模态之间实现更好的知识迁移？需要研究跨模态的学习方法和技术。

应用场景

近期应用

智能软件自动化

CUActSpot基准测试和数据合成管道可以用于开发更智能的自动化软件，提升生产力和用户体验。

多模态交互评估

工业界可以利用CUActSpot评估计算机使用代理在多模态交互场景中的表现，优化产品设计。

学术研究支持

CUActSpot和数据合成管道为学术界提供了新的研究方向和技术参考，推动相关领域的发展。

远期愿景

通用智能代理

通过不断优化CUActSpot和数据合成管道，有望开发出能够处理各种复杂交互的通用智能代理。

跨模态知识迁移

未来的研究可能实现不同模态之间的知识迁移，提高模型在多模态场景中的表现。

原文摘要

Computer-use agents (CUAs) automate on-screen work, as illustrated by GPT-5.4 and Claude. Yet their reliability on complex, low-frequency interactions is still poor, limiting user trust. Our analysis of failure cases from advanced models suggests a long-tail pattern in GUI operations, where a relatively small fraction of complex and diverse interactions accounts for a disproportionate share of task failures. We hypothesize that this issue largely stems from the scarcity of data for complex interactions. To address this problem, we propose a new benchmark CUActSpot for evaluating models' capabilities on complex interactions across five modalities: GUI, text, table, canvas, and natural image, as well as a variety of actions (click, drag, draw, etc.), covering a broader range of interaction types than prior click-centric benchmarks that focus mainly on GUI widgets. We also design a renderer-based data-synthesis pipeline: scenes are automatically generated for each modality, screenshots and element coordinates are recorded, and an LLM produces matching instructions and action traces. After training on this corpus, our Phi-Ground-Any-4B outperforms open-source models with fewer than 32B parameters. We will release our benchmark, data, code, and models at https://github.com/microsoft/Phi-Ground.git

cs.CV

参考文献 (20)

SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents

Kanzhi Cheng, Qiushi Sun, Yougang Chu 等

2024 480 引用 ⭐ 高影响力查看解读 →

UI-Vision: A Desktop-centric GUI Benchmark for Visual Perception and Interaction

Shravan Nayak, Xiangru Jian, K. Lin 等

2025 51 引用 ⭐ 高影响力查看解读 →

Topological structural analysis of digitized binary images by border following

Satoshi Suzuki, K. Abe

1985 2852 引用

Navigating the Digital World as Humans Do: Universal Visual Grounding for GUI Agents

Boyu Gou, Ruohan Wang, Boyuan Zheng 等

2024 326 引用查看解读 →

Scaling Computer-Use Grounding via User Interface Decomposition and Synthesis

Tianbao Xie, Jiaqi Deng, Xiaochuan Li 等

2025 94 引用查看解读 →

Mobile-Agent-v3.5: Multi-platform Fundamental GUI Agents

Haiyang Xu, Xi Zhang, Hao Liu 等

2026 12 引用查看解读 →

Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone

Marah Abdin, Sam Ade Jacobs, A. A. Awan 等

2024 2168 引用查看解读 →

OpenCUA: Open Foundations for Computer-Use Agents

Xinyuan Wang, Bowen Wang, Dunjie Lu 等

2025 74 引用查看解读 →

InfiGUI-R1: Advancing Multimodal GUI Agents from Reactive Actors to Deliberative Reasoners

Yuhang Liu, Pengxiang Li, Congkai Xie 等

2025 112 引用查看解读 →

UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning

Haoming Wang, Haoyang Zou, Huatong Song 等

2025 117 引用查看解读 →

GPT-4V(ision) is a Generalist Web Agent, if Grounded

Boyuan Zheng, Boyu Gou, Jihyung Kil 等

2024 507 引用查看解读 →

InfiGUI-G1: Advancing GUI Grounding with Adaptive Exploration Policy Optimization

Yuhang Liu, Zeyu Liu, Shuanghe Zhu 等

2025 16 引用查看解读 →

AndroidWorld: A Dynamic Benchmarking Environment for Autonomous Agents

Christopher Rawles, Sarah Clinckemaillie, Yifan Chang 等

2024 277 引用查看解读 →

ScreenSpot-Pro: GUI Grounding for Professional High-Resolution Computer Use

Kaixin Li, Ziyang Meng, Hongzhan Lin 等

2025 187 引用查看解读 →

An Illusion of Progress? Assessing the Current State of Web Agents

Tianci Xue, Weijian Qi, Tianneng Shi 等

2025 101 引用查看解读 →

WebArena: A Realistic Web Environment for Building Autonomous Agents

Shuyan Zhou, Frank F. Xu, Hao Zhu 等

2023 1250 引用查看解读 →

CogAgent: A Visual Language Model for GUI Agents

Wenyi Hong, Weihan Wang, Qingsong Lv 等

2023 725 引用查看解读 →

VisualAgentBench: Towards Large Multimodal Models as Visual Foundation Agents

Xiao Liu, Tianjie Zhang, Yu Gu 等

2024 80 引用查看解读 →

OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments

Tianbao Xie, Danyang Zhang, Jixuan Chen 等

2024 664 引用查看解读 →

Agent S2: A Compositional Generalist-Specialist Framework for Computer Use Agents

Saaket Agashe, Kyle Wong, Vincent Tu 等

2025 109 引用查看解读 →

Covering Human Action Space for Computer Use: Data Synthesis and Benchmark

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

CUActSpot (计算机使用动作空间覆盖)

数据合成管道

Phi-Ground-Any-4B

多模态

复杂交互

大语言模型 (LLM)

ScreenSpot-Pro

UI-Vision

消融实验

自然图像

开放问题 这项研究留下的未解疑问

应用场景

近期应用

智能软件自动化

多模态交互评估

学术研究支持

远期愿景

通用智能代理

跨模态知识迁移

原文摘要

参考文献 (20)

相关论文

JanusMesh: Fast and Zero-Shot 3D Visual Illusion Generation via Cross-Space Denoising

UNIEGO: Proxies as Mediators for Unified Egocentric Video Representation Learning

SSD: Spatially Speculative Decoding Accelerates Autoregressive Image Generation

CalTennis: Large Multi-View Tennis Video Dataset and Benchmark of Monocular-to-3D Pose Estimation

Unified Multimodal Autoregressive Modeling with Shared Context-Visual Tokenizer is Key to Unification

EventDrive: Event Cameras for Vision-Language Driving Intelligence

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问