A History-Aware Visually Grounded Critic for Computer Use Agents
提出HiViG,结合历史状态追踪与视觉基础的测试时干预框架,提升GUI任务成功率,Qwen3-VL-32B提升5.8%,Gemini-3-Flash提升9%。
核心发现
方法论
本文提出的HiViG框架利用多模态critic模型,结合长时序的历史状态追踪与视觉基础的错误分析机制,提升GUI环境下的智能代理表现。训练过程中,作者基于开源多域GUI轨迹数据,采用多阶段数据增强策略,包括宏动作历史压缩和空间视觉验证。模型核心由多模态Transformer组成,融合视觉特征和文本描述,进行状态转移预测与错误识别。在测试阶段,HiViG将critic嵌入策略决策环,实时更新宏动作历史,验证原始执行坐标,提前拦截潜在错误。该方法在Web、移动端和桌面环境中均表现优异,显著优于传统scalar和文本critic,成功率提升5.8%至9%。
关键结果
- 在WebArenaLitev2平台上,Gemini-3-Flash模型的成功率从30.5%提升至45.5%,提升幅度达15%;Qwen3-VL-32B模型提升了5.8%的平均成功率,达到38.3%。
- 在AndroidLab移动环境中,HIVIG对Qwen3-VL-32B的成功率提升了7.3%,在桌面Windows环境中,提升幅度为2.3%,整体表现优越。
- 消融实验显示,宏动作历史缓解了短视规划问题,视觉基础的错误分析显著降低了执行错误,两个组件在长时序GUI任务中均为关键。
研究意义
该研究突破了现有GUI智能代理在长时序任务中的短视问题和空间误差识别瓶颈,为自动化、智能化GUI操作提供了新思路。通过引入历史状态追踪与视觉验证机制,有效提升了任务成功率和鲁棒性,推动了多模态学习在实际应用中的落地。该框架不仅增强了模型的解释性,也为未来多模态、多任务的智能系统设计提供了理论基础和工程方案,有望在自动化测试、智能助理等领域产生深远影响。
技术贡献
本文的核心技术创新在于提出结合宏动作历史压缩与视觉基础错误分析的多模态critic模型。具体包括:1)引入长时序宏动作历史,用于全局任务追踪,缓解短视决策问题;2)设计视觉验证机制,通过空间坐标与当前屏幕图像比对,提前识别空间和推理错误;3)采用多阶段数据增强策略,利用开源多域轨迹数据训练模型,实现跨平台泛化。模型架构基于多模态Transformer,融合视觉特征与文本描述,进行状态转移预测和错误分类。这些技术突破显著优于传统scalar奖励和单模态critic,为复杂GUI任务中的预执行干预提供了强有力的工具。
新颖性
该工作首次系统性结合历史状态追踪与视觉基础的错误分析,提出多模态critic模型用于测试时干预。不同于以往仅依赖文本指令或单一奖励信号的方法,HiViG通过空间验证和宏动作压缩,显著提升了长时序GUI任务中的表现。其创新点在于:1)引入宏动作历史,提供全局任务视角;2)利用空间视觉验证,提升空间推理能力;3)融合多模态信息进行错误识别和修正。这些创新为GUI智能代理的鲁棒性和可解释性树立了新标杆。
局限性
- 模型在极端复杂或模糊场景下仍可能出现空间验证失误,尤其在UI元素重叠或遮挡时效果下降。
- 训练数据依赖开源轨迹,可能存在偏差,泛化到未见场景仍面临挑战。
- 模型推理复杂度较高,实时应用中存在一定的计算压力,需优化推理效率。
未来方向
未来工作将聚焦于提升模型在极端场景下的空间验证鲁棒性,结合强化学习优化策略决策流程,增强模型的自主修正能力。同时,将探索更高效的模型架构,减少推理延迟,适应实际工业环境的部署需求。此外,结合用户交互反馈,动态调整模型策略,提升个性化和适应性,为自动化GUI操作带来更广泛的应用前景。
AI 总览摘要
在现代数字化办公和自动化场景中,智能代理在复杂的图形用户界面(GUI)环境中的表现直接关系到效率和用户体验。尽管深度学习模型已在图像识别和自然语言处理方面取得突破,但在GUI任务中,模型仍面临短视决策和空间误差识别的双重挑战。传统方法多依赖标量奖励或文本描述,难以全面捕捉环境变化和空间推理,导致错误频发,任务成功率不足。为此,本文提出了名为HiViG的创新框架,结合长时序的宏动作历史追踪与视觉基础的错误分析机制,显著提升了GUI任务中的预执行干预能力。
HiViG的核心在于一个多模态critic模型,它通过学习真实GUI轨迹,压缩过去的交互信息,形成宏动作历史,帮助策略进行全局任务追踪。同时,critic利用空间验证技术,将原始执行坐标与当前屏幕图像比对,提前识别空间推理错误和潜在的操作失误。这一机制极大改善了模型在长时序、多步骤任务中的表现,使其在Web、移动端和桌面环境中均能优于现有的scalar和文本critic模型。
实验结果显示,HiViG在多个公开基准上均取得了优异成绩。例如,在WebArenaLitev2平台上,Gemini-3-Flash模型的成功率从30.5%提升到45.5%,提升了15%;Qwen3-VL-32B模型的平均成功率提升了5.8%。在移动和桌面环境中,成功率提升幅度分别达7.3%和2.3%。消融实验进一步验证了宏动作历史和视觉验证两个组件的关键作用,前者缓解了短视规划问题,后者降低了空间推理错误。
这项工作不仅在学术上推动了多模态学习和强化学习在GUI自动化中的应用,也为工业界提供了更鲁棒、更高效的自动化工具。未来,作者计划优化模型推理速度,增强在极端场景下的空间验证能力,并结合用户反馈实现动态策略调整。总体而言,HiViG为智能代理在复杂环境中的长时序任务提供了新的解决方案,具有广泛的应用潜力和深远的行业影响。
深度分析
研究背景
随着深度学习技术的快速发展,智能代理在自动化任务中的应用逐渐普及。早期的GUI自动化多依赖规则和模板,缺乏灵活性。近年来,基于深度强化学习和多模态模型的研究不断涌现,如OpenAI的GPT系列、Google的BERT模型,以及专门针对GUI环境设计的深度强化学习方法。这些方法在短时任务中表现良好,但在长时序、多步骤任务中仍存在短视问题,难以保持全局任务的追踪和空间推理能力。现有的测试时干预技术多采用scalar奖励或文本反馈,无法充分利用空间信息,导致错误频发。近年来,研究者开始尝试结合视觉验证和历史状态追踪,以提升模型鲁棒性,但系统性结合多模态信息的框架尚未成熟。本文的创新在于提出融合宏动作历史和视觉验证的多模态critic模型,为GUI自动化提供了新的技术路径。
核心问题
在复杂GUI环境中,智能代理常因短视决策和空间推理不足而导致操作失误。传统方法依赖标量奖励或文本描述,难以捕捉空间误差和推理错误,尤其在多步骤长时序任务中表现不佳。具体问题包括:1)缺乏对过去操作的有效追踪,导致重复操作或遗漏;2)空间验证不足,无法提前识别点击错误或UI元素错位;3)模型在面对连续复杂环境时,容易陷入低奖励区域,难以自我修正。这些问题严重限制了GUI自动化的效率和鲁棒性,亟需一种能够结合历史信息和空间验证的解决方案。
核心创新
本文的创新主要体现在三个方面:1)引入宏动作历史压缩机制,将多步操作压缩为全局目标,帮助模型进行长时序任务的全局追踪;2)设计视觉基础的空间验证机制,通过比对执行坐标与当前屏幕图像,提前识别空间推理错误,避免潜在失误;3)采用多模态Transformer架构,将视觉特征与文本描述融合,提升模型的空间推理和错误识别能力。这些创新使得模型不仅能理解环境变化,还能在执行前进行空间验证,有效减少错误发生,提升任务成功率。
方法详解
- �� 数据准备:利用开源多域GUI轨迹数据,构建包含Web、移动端和桌面环境的训练集,采用多阶段数据增强,包括宏动作压缩和空间验证标注。
- �� 模型架构:基于多模态Transformer,融合视觉特征(来自屏幕截图)和文本描述(操作意图),实现状态转移预测和错误分类。
- �� 宏动作历史:通过递归压缩过去的操作,形成全局任务追踪信息,帮助策略进行长时序规划。
- �� 空间验证:在测试阶段,将原始执行坐标与当前屏幕图像比对,识别空间推理错误(如点击错误UI元素或位置偏差),并生成错误类别和修正建议。
- �� 训练策略:采用监督学习,利用标注的轨迹数据训练critic模型,优化空间验证、状态转移预测和错误识别能力。
- �� 测试流程:在每个决策点,critic首先更新宏动作历史,然后验证拟执行操作的空间合理性,最后提供错误反馈或确认执行,确保操作的正确性和任务的连续性。
实验设计
实验在WebArenaLitev2、AndroidLab和WindowsAgentArena三个公开平台进行,涵盖网页、移动端和桌面任务。采用成功率作为主要指标,比较基线模型(无干预、scalar奖励、文本critic)与提出的HiViG框架。模型训练使用52k样本,超参数包括批次大小、学习率等,确保模型在不同平台上均有良好泛化能力。通过消融实验验证宏动作历史和视觉验证的贡献,分析不同组件对性能提升的影响。评估还包括跨平台迁移能力和实时推理效率,确保方法的实用性。
结果分析
在Web环境中,Gemini-3-Flash模型的成功率由30.5%提升至45.5%,提升幅度达15%;Qwen3-VL-32B模型的平均成功率提升5.8%,达到38.3%。在移动端,Qwen模型成功率提升7.3%,在桌面环境中提升2.3%。消融实验显示,宏动作历史显著缓解了短视规划问题,视觉验证降低了空间推理错误,两个组件合用时,整体成功率提升明显。这些结果验证了HiViG在不同平台和模型上的优越性,展现了强大的泛化能力。
应用场景
该技术可应用于自动化测试、智能助理、企业流程自动化等场景,尤其适合长时序、多步骤的GUI操作任务。只需提供环境截图和任务指令,模型即可实现自主操作和错误修正,减少人工干预。未来还可结合强化学习,优化策略决策,提升自主修正能力,推动工业界实现高效、鲁棒的自动化流程。
局限与展望
模型在极端复杂或遮挡严重的UI场景下仍存在空间验证失误,且对训练数据的依赖可能导致泛化不足。此外,模型推理复杂度较高,实时应用中存在计算瓶颈。未来需优化模型结构,提升推理速度,并增强在极端场景下的空间验证鲁棒性。同时,结合用户交互反馈,动态调整策略,将进一步提升系统的适应性和实用性。
通俗解读 非专业人士也能看懂
想象你在一家工厂工作,工厂里有很多不同的机器和流程。每次你要让一台机器做事,比如装配零件,你需要告诉它具体的步骤。有时候,机器会出错,比如装错零件或忘记了之前的步骤。为了避免这些错误,你需要不断检查机器的状态,确保每一步都正确完成。
这个工厂的管理系统就像是一个智能助手,它不仅记住你之前的操作,还能通过观察工厂的实时画面,确认每个动作是否正确。比如,它会检查机器是否在正确的位置,是否装上了正确的零件。如果发现错误,它会提前告诉你,让你可以及时修正,而不是等到出错后再去补救。
这就像是一个非常聪明的工厂经理,既能记住所有的操作历史,又能用眼睛看清每个细节,确保每个环节都顺利进行。这样一来,整个生产流程就变得更加高效和可靠,不会因为小错误而影响整个生产线的运行。
简单解释 像给14岁少年讲一样
想象你在玩一个超级复杂的拼图游戏,你需要把很多不同的拼图块拼在一起,才能完成一幅漂亮的画。有时候,你会忘记自己已经拼过哪些部分,或者拼错了位置,导致整个拼图变得乱糟糟的。
现在,假设你有一个聪明的助手,它不仅记住你每一步拼图的过程,还能用眼睛看一看拼图的当前状态,帮你检查拼图是否正确。比如,它会告诉你:“这个拼图块放错地方了,要不你试试换个位置。”
这个助手还会提前告诉你可能会出错的地方,比如说:“这个拼图块看起来不太对,可能会让整个拼图变得不稳定。”这样,你就可以在出错之前修正,避免浪费时间。
就像这样,这个智能助手既能记住你的所有操作,还能用眼睛观察当前的情况,提前发现问题,帮你把拼图拼得又快又好。它让拼图变得更容易,也让你玩得更开心!
原文摘要
Various test-time interventions for Computer Use Agents (CUAs), including critic models, have been developed to improve performance through pre-execution action evaluation in complex Graphical User Interface (GUI) environments. However, existing critics suffer from two key limitations: they (1) focus primarily on short-sighted decision loops (e.g., forgetting earlier actions) and (2) lack the visual grounding needed to detect flawed actions (e.g., clicking wrong UI elements). To address these, we introduce HiViG, a History-aware Visually Grounded test-time framework, built around a multimodal critic trained on real GUI trajectories to abstract past interactions into a compact record and to evaluate actions with visual grounding. At test time, HiViG integrates the critic into the policy decision loop to provide macro-action history, which summarizes the policy's completed achievements, and visually grounded critique, which verifies raw execution coordinates against the current screenshot to intercept errors before execution. Across web, mobile, and desktop benchmarks, HiViG consistently outperforms existing scalar and verbal critics, improving average success rates over the strongest baseline by 5.8% for Qwen3-VL-32B and 9.0% for Gemini-3-Flash, and demonstrates strong cross-platform generalization. Ablations show that macro-action history mitigates short-sighted planning and visually grounded critique reduces execution errors, with both components being critical for test-time scaling in long-horizon GUI tasks.
参考文献 (20)
ScaleCUA: Scaling Open-Source Computer Use Agents with Cross-Platform Data
Zhaoyang Liu, Jingjing Xie, Zichen Ding 等
NeuralOS: Towards Simulating Operating Systems via Neural Generative Models
Luke Rivard, Sun Sun, Hongyu Guo 等
UI-TARS: Pioneering Automated GUI Interaction with Native Agents
Yujia Qin, Yining Ye, Junjie Fang 等
AndroidLab: Training and Systematic Benchmarking of Android Autonomous Agents
Yifan Xu, Xiao Liu, Xueqiao Sun 等
OpenCUA: Open Foundations for Computer-Use Agents
Xinyuan Wang, Bowen Wang, Dunjie Lu 等
Look Before You Leap: A GUI-Critic-R1 Model for Pre-Operative Error Diagnosis in GUI Automation
Yuyang Wanyan, Xi Zhang, Haiyang Xu 等
LlamaFactory: Unified Efficient Fine-Tuning of 100+ Language Models
Yaowei Zheng, Richong Zhang, Junhao Zhang 等
Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V
Jianwei Yang, Hao Zhang, Feng Li 等
Mobile-Agent-v3.5: Multi-platform Fundamental GUI Agents
Haiyang Xu, Xi Zhang, Hao Liu 等
OS-Symphony: A Holistic Framework for Robust and Generalist Computer-Using Agent
Bowen Yang, Kaiming Jin, Zhenyu Wu 等
Digi-Q: Learning VLM Q-Value Functions for Training Device-Control Agents
Hao Bai, Yifei Zhou, Erran L. Li 等
SEAgent: Self-Evolving Computer Use Agent with Autonomous Learning from Experience
Zeyi Sun, Ziyu Liu, Yuhang Zang 等
Jonathan
J. Stevenson
AndroidWorld: A Dynamic Benchmarking Environment for Autonomous Agents
Christopher Rawles, Sarah Clinckemaillie, Yifan Chang 等
Web Agents with World Models: Learning and Leveraging Environment Dynamics in Web Navigation
Hyungjoo Chae, Namyoung Kim, Kai Tzu-iunn Ong 等
WebArbiter: A Principle-Guided Reasoning Process Reward Model for Web Agents
Yao Zhang, Shijie Tang, Zeyu Li 等
Language Models Can Learn from Verbal Feedback Without Scalar Rewards
Renjie Luo, Zi-Yan Liu, Xiangyan Liu 等
ScreenSpot-Pro: GUI Grounding for Professional High-Resolution Computer Use
Kaixin Li, Ziyang Meng, Hongzhan Lin 等
WebArena: A Realistic Web Environment for Building Autonomous Agents
Shuyan Zhou, Frank F. Xu, Hao Zhu 等
SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering
Carlos E. Jimenez, K. Lieret, Karthik R. Narasimhan 等