ToolCUA: Towards Optimal GUI-Tool Path Orchestration for Computer Use Agents

TL;DR

ToolCUA通过分阶段训练实现GUI-工具路径选择,提升46.85%准确率。

cs.AI 🔴 高级 2026-05-13 216 次浏览
Xuhao Hu Xi Zhang Haiyang Xu Kyle Qiao Jingyi Yang Xuanjing Huang Jing Shao Ming Yan Jieping Ye
GUI 工具调用 路径优化 强化学习 计算机使用代理

核心发现

方法论

ToolCUA采用分阶段训练范式,首先通过交错GUI-工具轨迹扩展管道生成多样化的GUI-工具轨迹,然后进行工具引导的GUI强化微调(RFT),结合预热SFT和单回合RL以改善关键GUI-工具切换点的决策。最后在高保真GUI-工具环境中通过在线代理RL优化ToolCUA,使用工具效率路径奖励来鼓励适当的工具使用和更短的执行路径。

关键结果

  • ToolCUA在OSWorld-MCP上实现了46.85%的准确率,相比基线提高了约66%,在同规模模型中树立了新的标杆。
  • 在纯GUI设置下,ToolCUA提高了3.9%,展示了有效的GUI-工具编排能力。
  • ToolCUA在未见任务和平台上表现出色,达到23.9%的准确率,显示出良好的跨任务和跨平台泛化能力。

研究意义

ToolCUA的研究意义在于为计算机使用代理提供了一种新的路径选择范式,解决了传统方法在混合动作空间中的路径选择困惑。通过引入交错的GUI-工具轨迹和工具效率路径奖励,ToolCUA不仅提高了代理的任务完成率,还显著缩短了执行路径,展示了在实际数字自动化中的潜力。

技术贡献

ToolCUA的技术贡献在于其分阶段训练范式和工具引导的强化学习策略。与现有方法相比,ToolCUA不仅在轨迹级别上优化了GUI-工具切换决策,还通过工具效率路径奖励实现了更高效的路径选择。此外,ToolCUA展示了在混合动作空间中训练的代理在实际应用中的广泛适用性。

新颖性

ToolCUA首次提出了交错GUI-工具轨迹扩展管道,结合工具引导的强化学习策略,解决了混合动作空间中的路径选择问题。与现有方法相比,ToolCUA在轨迹级别上提供了更细致的监督,显著提高了任务完成效率。

局限性

  • ToolCUA在工具调用的准确性上仍有提升空间,特别是在工具不可用或不稳定的情况下。
  • 在某些复杂任务中,ToolCUA可能仍然依赖于冗长的GUI操作,未能充分利用工具调用。

未来方向

未来的研究可以探索如何进一步提高ToolCUA在复杂任务中的工具调用效率,以及在更多样化的应用场景中验证其泛化能力。此外,结合更多的环境反馈信号可能有助于进一步优化路径选择。

AI 总览摘要

计算机使用代理(CUA)在现代数字化工作流程中扮演着越来越重要的角色。然而,传统的CUA主要依赖于原子GUI操作,如点击和滚动,这虽然具有广泛的适用性,但在长时间任务中容易出现级联错误。另一方面,结构化的工具调用提供了更高的效率和精确性,但其应用受限于服务覆盖和稳定性。因此,混合GUI-工具动作空间成为下一代CUA的关键。

ToolCUA通过分阶段训练范式解决了这一问题。首先,研究人员引入了交错GUI-工具轨迹扩展管道,利用丰富的静态GUI轨迹和合成的工具库生成多样化的GUI-工具轨迹。接着,工具引导的GUI强化微调(RFT)结合预热SFT和单回合RL以改善关键GUI-工具切换点的决策。最后,在高保真GUI-工具环境中通过在线代理RL优化ToolCUA,使用工具效率路径奖励来鼓励适当的工具使用和更短的执行路径。

实验结果显示,ToolCUA在OSWorld-MCP上实现了46.85%的准确率,相比基线提高了约66%,在同规模模型中树立了新的标杆。此外,ToolCUA在纯GUI设置下提高了3.9%,展示了有效的GUI-工具编排能力。更重要的是,ToolCUA在未见任务和平台上表现出色,达到23.9%的准确率,显示出良好的跨任务和跨平台泛化能力。

ToolCUA的研究意义在于为计算机使用代理提供了一种新的路径选择范式,解决了传统方法在混合动作空间中的路径选择困惑。通过引入交错的GUI-工具轨迹和工具效率路径奖励,ToolCUA不仅提高了代理的任务完成率,还显著缩短了执行路径,展示了在实际数字自动化中的潜力。

然而,ToolCUA在工具调用的准确性上仍有提升空间,特别是在工具不可用或不稳定的情况下。在某些复杂任务中,ToolCUA可能仍然依赖于冗长的GUI操作,未能充分利用工具调用。未来的研究可以探索如何进一步提高ToolCUA在复杂任务中的工具调用效率,以及在更多样化的应用场景中验证其泛化能力。此外,结合更多的环境反馈信号可能有助于进一步优化路径选择。

深度分析

研究背景

随着多模态大语言模型(MLLMs)的快速发展,计算机使用代理(CUAs)成为自动化本地桌面工作流程的前沿课题。传统上,CUAs主要依赖于原子GUI操作,如点击和滚动,这虽然具有广泛的适用性,但在长时间任务中容易出现级联错误。相反,结构化的工具调用提供了更高的效率和精确性。例如,一个文件操作可以通过单个API调用完成,而纯GUI解决方案则需要长序列的点击和输入。然而,工具API受限于服务覆盖和稳定性,限制了其在多样化场景中的适用性。因此,混合GUI-工具动作空间成为下一代CUA的关键。

核心问题

尽管GUI操作和工具调用是互补的,但仅仅将两者的动作空间暴露给MLLM并不能解决问题。在实践中,代理往往在何时使用GUI操作以及何时调用工具方面感到困惑,导致任务成功率下降。现有方法在两个基本方面存在不足。首先,缺乏高质量的交错GUI-工具轨迹,导致工具调用知识的不足。其次,现有监督信号通常来自步骤级别的模仿或最终任务完成奖励,无法有效区分及时的工具调用切换和冗长的GUI操作。

核心创新

ToolCUA通过分阶段训练范式解决了上述问题。首先,研究人员引入了交错GUI-工具轨迹扩展管道,利用丰富的静态GUI轨迹和合成的工具库生成多样化的GUI-工具轨迹。接着,工具引导的GUI强化微调(RFT)结合预热SFT和单回合RL以改善关键GUI-工具切换点的决策。最后,在高保真GUI-工具环境中通过在线代理RL优化ToolCUA,使用工具效率路径奖励来鼓励适当的工具使用和更短的执行路径。

方法详解

  • �� 引入交错GUI-工具轨迹扩展管道,生成多样化的GUI-工具轨迹。
  • �� 工具引导的GUI强化微调(RFT),结合预热SFT和单回合RL改善关键切换点决策。
  • �� 在高保真GUI-工具环境中通过在线代理RL优化ToolCUA,使用工具效率路径奖励。

实验设计

实验在OSWorld-MCP上进行,使用Qwen3-VL-8B-Instruct作为基线模型。训练包括3个阶段:预热SFT、单回合RL和在线代理RL。评估指标包括准确率、工具调用率(TIR)和平均完成步骤(ACS)。实验结果显示,ToolCUA在同规模模型中树立了新的标杆,并在未见任务和平台上表现出色。

结果分析

ToolCUA在OSWorld-MCP上实现了46.85%的准确率,相比基线提高了约66%。在纯GUI设置下,ToolCUA提高了3.9%,展示了有效的GUI-工具编排能力。ToolCUA在未见任务和平台上表现出色,达到23.9%的准确率,显示出良好的跨任务和跨平台泛化能力。

应用场景

ToolCUA可用于自动化桌面工作流程,特别是在需要高效路径选择的场景中。其混合动作空间使其在多样化的应用场景中具有广泛的适用性,能够显著提高任务完成效率。

局限与展望

ToolCUA在工具调用的准确性上仍有提升空间,特别是在工具不可用或不稳定的情况下。在某些复杂任务中,ToolCUA可能仍然依赖于冗长的GUI操作,未能充分利用工具调用。未来的研究可以探索如何进一步提高ToolCUA在复杂任务中的工具调用效率,以及在更多样化的应用场景中验证其泛化能力。

通俗解读 非专业人士也能看懂

想象一下你在厨房里做饭。传统的做法是你自己切菜、炒菜、调味,这就像是使用GUI操作,虽然你可以完成所有的步骤,但需要花费大量的时间和精力。而ToolCUA就像是一个智能厨房助手,它不仅可以帮你切菜,还能根据菜谱自动调整火候和调味。这样,你只需要做一些简单的操作,就能轻松完成一顿美味的晚餐。

ToolCUA通过结合GUI操作和工具调用,实现了更高效的路径选择。就像在厨房中,你可以选择用刀切菜(GUI操作),也可以选择用切菜机(工具调用)。当你需要快速完成任务时,切菜机显然是更好的选择。

然而,有时候切菜机可能不够灵活,比如你需要切一些特别形状的菜,这时你就需要回到手工操作。这就像ToolCUA在某些复杂任务中仍然需要依赖GUI操作。

总的来说,ToolCUA通过智能选择何时使用GUI操作和工具调用,实现了更高效的任务完成,就像在厨房中合理使用工具可以大大提高做饭的效率。

简单解释 像给14岁少年讲一样

嘿,小伙伴们!今天我要跟你们聊聊一个超级酷的东西,叫做ToolCUA。想象一下,你在玩一个超复杂的游戏,需要不停地点击、拖动才能完成任务,这就是传统的GUI操作。虽然你可以完成任务,但有时候会觉得好累,对吧?

ToolCUA就像是游戏中的超级助手,它可以帮你自动完成一些重复的操作,比如一键打开宝箱或者自动整理背包。这就是工具调用的魔力!

不过,有时候游戏中也会有一些特别的任务,比如需要你自己动手去解谜,这时候ToolCUA也会聪明地选择让你亲自操作。这样一来,你就能在享受游戏乐趣的同时,更快地完成任务!

总之,ToolCUA就像是你的游戏小伙伴,帮你在游戏中做出最聪明的选择,让你玩得更轻松、更开心!

术语表

GUI (图形用户界面)

一种允许用户通过图形元素与计算机交互的界面。

在ToolCUA中,GUI操作指的是点击、输入等基本操作。

工具调用

通过API或其他方法调用高层次的功能。

在ToolCUA中,工具调用用于替代冗长的GUI操作。

路径选择

在多种可能的执行路径中选择最优路径。

ToolCUA通过分阶段训练实现了更优的路径选择。

强化学习 (RL)

一种通过与环境交互来学习最优策略的机器学习方法。

ToolCUA使用RL来优化GUI-工具切换决策。

交错轨迹

结合GUI操作和工具调用的混合轨迹。

ToolCUA通过交错轨迹扩展管道生成多样化的训练数据。

工具效率路径奖励

一种奖励机制,鼓励代理使用更短的执行路径。

ToolCUA使用该奖励来优化路径选择。

OSWorld-MCP

一个用于评估计算机使用代理的基准测试集。

ToolCUA在该基准上实现了46.85%的准确率。

多模态大语言模型 (MLLM)

能够处理多种模态数据的大型语言模型。

ToolCUA利用MLLM生成工具库。

预热SFT

一种用于初始化模型的监督微调方法。

ToolCUA在工具引导的GUI强化微调中使用了预热SFT。

单回合RL

在单个决策点进行的强化学习。

ToolCUA在关键GUI-工具切换点使用单回合RL进行优化。

开放问题 这项研究留下的未解疑问

  • 1 如何在工具不可用或不稳定的情况下提高ToolCUA的工具调用准确性?现有方法在这些情况下的表现较差,需要更鲁棒的策略来应对。
  • 2 ToolCUA在某些复杂任务中仍然依赖于冗长的GUI操作,未能充分利用工具调用。如何进一步优化这些任务中的路径选择?
  • 3 在更多样化的应用场景中验证ToolCUA的泛化能力是一个开放问题。现有研究主要集中在特定的基准测试集上。
  • 4 如何结合更多的环境反馈信号来进一步优化ToolCUA的路径选择?现有方法主要依赖于工具效率路径奖励。
  • 5 ToolCUA在跨平台任务中的表现如何进一步提升?现有研究显示其在不同平台上的表现存在差异。

应用场景

近期应用

桌面自动化

ToolCUA可以用于自动化桌面工作流程,特别是在需要高效路径选择的场景中。其混合动作空间使其在多样化的应用场景中具有广泛的适用性。

远期愿景

智能助手

ToolCUA可以作为智能助手的一部分,帮助用户在复杂的数字环境中完成任务,提高工作效率。

原文摘要

Computer Use Agents (CUAs) can act through both atomic GUI actions, such as click and type, and high-level tool calls, such as API-based file operations, but this hybrid action space often leaves them uncertain about when to continue with GUI actions or switch to tools, leading to suboptimal execution paths. This difficulty stems from the scarcity of high-quality interleaved GUI-Tool trajectories, the cost and brittleness of collecting real tool trajectories, and the lack of trajectory-level supervision for GUI-Tool path selection. In this paper, we propose ToolCUA, an end-to-end agent designed to learn optimal GUI-Tool path selection through a staged training paradigm. We first introduce an Interleaved GUI-Tool Trajectory Scaling Pipeline that repurposes abundant static GUI trajectories and synthesizes a grounded tool library, enabling diverse GUI-Tool trajectories without manual engineering or real tool-trajectory collection. We then perform Tool-Bootstrapped GUI RFT, combining warmup SFT with single-turn RL to improve decisions at critical GUI-Tool switching points. Finally, we optimize ToolCUA with Online Agentic RL in a high-fidelity GUI-Tool environment, guided by a Tool-Efficient Path Reward that encourages appropriate tool use and shorter execution paths. Experiments on OSWorld-MCP show that ToolCUA achieves 46.85% accuracy, a relative improvement of approximately 66% over the baseline, establishing a new state of the art among models of comparable scale. It also improves by 3.9% over GUI-only settings, demonstrating effective GUI-Tool orchestration. The results further suggest that training in a hybrid action space is a promising paradigm for real-world digital agents. Open-sourced here: https://x-plug.github.io/ToolCUA/

cs.AI