Learn from Weaknesses: Automated Domain Specialization for Small Computer-Use Agents

TL;DR

提出LearnWeak框架,通过强参考代理自动识别小型CUA的弱点,提升8个软件域的性能,平均提升11.6个百分点。

cs.LG 🔴 高级 2026-05-28 85 次浏览
Suji Kim Kangsan Kim Sung Ju Hwang
人工智能 强化学习 领域适应 自动化数据生成 模型微调

核心发现

方法论

本文提出的LearnWeak框架结合了无标注的弱点识别、目标任务合成和行为修正机制。核心包括:利用性能更强的参考代理自动检测学生模型在特定域中的弱点,通过比较教师与学生的轨迹,自动生成针对性任务,避免人工标注。训练阶段引入误差感知的偏好优化(DPO),区分计划与执行错误,实现更精细的行为修正。数据生成采用多轮迭代,结合弱点报告和截图引导,逐步扩展目标域训练集。模型微调采用LoRA模块,保持预训练能力同时实现域适应。实验证明在OSWorld数据集上,经过该流程的模型在8个软件域中平均提升11.6个百分点,优于多种基线方法。该方法显著减少了人工标注成本,提高了模型在多样化任务中的表现。

关键结果

  • 在OSWorld测试集上,基于EvoCUA-8B的模型通过LearnWeak实现了平均11.6个百分点的性能提升(从50.69%到62.24%),在OpenCUA-7B上提升11.1个百分点(从37.65%到48.72%),表现出优异的域适应能力。多域实验显示,模型在办公软件、系统工具、视觉编辑和编程任务中均实现了显著改进,部分任务甚至超越了教师模型。对比传统数据增强和无弱点识别的训练策略,LearnWeak在数据效率和性能提升方面表现优越,验证了弱点导向数据合成的有效性。
  • 结果还显示,误差感知的偏好优化(DPO)优于标准微调(SFT)和其他离线训练策略,尤其在计划和执行错误的区分上带来更精细的行为修正。通过多轮迭代生成,模型逐步聚焦未解决的弱点区域,提升了训练效率。不同教师策略(如Claude Haiku 4.6、EvoCUA-32B)对弱点检测和数据质量影响显著,强教师能更有效引导模型学习。整体来看,弱点导向的训练策略在多任务、多域环境中具有良好的迁移和泛化能力。
  • 此外,本文还通过消融实验验证了弱点报告来源、生成轮次和训练目标设计对性能的影响,强调了学生模型对弱点信息的敏感性和数据生成的关键性。

研究意义

该研究突破了小型CUA在多域适应中的瓶颈,提出了无需人工标注的自动化弱点识别与任务合成机制,极大降低了域专精的门槛。通过引入误差感知的偏好优化,实现了行为修正的精细化,推动了自主学习和模型微调的研究前沿。其在实际应用中,能显著提升边缘设备和隐私敏感场景下的智能代理性能,为未来智能系统的个性化和多任务适应提供了新思路。这一方法不仅在学术上丰富了模型微调和数据合成的理论体系,也为工业界实现高效、自动化的域定制提供了技术基础。

技术贡献

本文的核心技术创新在于:1)提出无标注的弱点识别机制,通过教师-学生轨迹对比自动检测模型缺陷;2)设计基于弱点报告的目标任务合成策略,有效扩大训练数据且针对性强;3)引入误差感知偏好优化(DPO),区分计划与执行错误,实现行为的细粒度修正;4)采用多轮迭代的弱点导向数据扩展流程,逐步逼近目标域的性能极限;5)利用LoRA模块实现模型参数的高效微调,保证预训练能力的同时快速适应新域。整体框架融合了强化学习、迁移学习和自动化数据生成的最新技术,显著提升了小模型的域适应能力。

新颖性

本研究的创新点在于:首次提出基于无标注弱点识别的自动化数据合成与模型微调体系,突破了传统依赖大量人工标注的限制。相较于现有的域适应方法(如微调、迁移学习),该方法强调模型自身的弱点检测与针对性修正,结合多轮迭代策略,极大提高了数据利用效率和训练效果。其引入的误差感知偏好优化(DPO)在行为修正中实现了更细粒度的控制,区别于传统的行为模仿或强化学习策略。这些创新共同推动了小型模型在多任务、多域环境中的自主学习能力,填补了自动化、无标注域适应的研究空白。

局限性

  • 该方法依赖参考代理的性能,若参考模型能力不足,可能导致弱点识别不准确,从而影响数据合成效果,限制了其在极端复杂或新颖域的适应性。
  • 多轮迭代生成虽提升了数据针对性,但也带来了计算成本的增加,尤其在大规模多域场景中,训练时间和资源消耗较高。
  • 模型微调采用LoRA模块,虽然高效,但在极端多域或超大模型中可能面临参数更新瓶颈,限制了扩展性。

未来方向

未来可探索引入更强的参考模型或自我监督机制,以提升弱点检测的准确性;同时,结合元学习策略,实现更快速的域适应和泛化能力。此外,优化多轮生成的效率,降低计算成本,也是未来的重要方向。进一步研究如何在更复杂的真实场景中应用该框架,解决动态变化的任务需求,将推动自动化个性化智能代理的广泛落地。

AI 总览摘要

在当今人工智能快速发展的背景下,构建能够在多样化软件环境中自主适应的智能代理成为研究热点。传统的模型微调方法依赖大量人工标注数据,成本高昂且难以扩展,尤其在多域、多任务场景中表现出明显的局限性。本文提出的LearnWeak框架,旨在通过自动化识别模型弱点、合成目标任务,实现无需人工干预的高效域专精。该方法的核心在于利用性能更强的参考代理自动检测学生模型在特定域中的不足,结合多轮迭代的弱点导向任务生成,逐步扩展训练数据集。训练阶段引入误差感知偏好优化(DPO),区分计划和执行错误,实现更细粒度的行为修正。这一流程使得小型模型在8个软件域中平均提升11.6个百分点,部分任务甚至超越教师模型,验证了其优越的适应能力。实验结果显示,该方法在数据效率和性能提升方面优于传统数据增强和弱点无关的生成策略,显著降低了人工成本,推动了自动化、多任务、多域智能代理的研究与应用。未来,结合更强的参考模型、优化生成效率,将进一步拓展其在复杂动态环境中的应用潜力,为智能系统的个性化定制提供坚实基础。

深度分析

研究背景

随着深度学习和强化学习的快速发展,智能代理在自动化任务中的应用日益广泛。早期的研究主要集中在大规模预训练模型(如GPT系列、Claude)上,这些模型在通用任务中表现优异,但在特定软件域的应用中仍存在性能瓶颈。近年来,针对特定任务微调的小模型(如EvoCUA、OpenCUA)逐渐成为研究热点,因其推理速度快、部署成本低,适合边缘设备。然而,现有方法普遍依赖大量人工标注数据,且在多域适应中表现不佳,难以实现高效迁移。部分研究尝试通过强化学习或迁移学习进行优化,但仍面临数据不足、泛化差等问题。近年来,自动化数据合成和无标注学习逐渐崭露头角,试图解决标注成本高昂和数据稀缺的难题。尽管如此,如何针对模型的具体弱点进行数据生成和行为修正,仍是当前的研究难点。本文在此背景下,提出了基于弱点识别的自动化域适应框架,结合多轮迭代和误差感知优化,填补了现有技术在无标注、目标导向训练方面的空白。

核心问题

小型计算机使用代理(CUA)在多域、多任务环境中表现出明显的性能差异,尤其在特定软件应用中存在较大弱点。传统微调方法难以高效识别和修正这些弱点,依赖大量人工标注,成本高且不易扩展。现有的自动化数据生成策略多为盲目探索,未能针对模型的具体缺陷进行优化,导致训练数据的针对性不足,影响模型的性能提升。此外,模型在计划和执行两个层面都可能出现错误,如何区分并有针对性地修正,成为提升模型表现的关键。解决这一问题,不仅需要高效的弱点检测机制,还需要精细的行为修正策略,以实现模型的快速适应和持续改进。这些挑战限制了小型CUA在实际应用中的推广,亟需一种既自动化又高效的解决方案。

核心创新

本文的创新点主要体现在以下几个方面:第一,提出无标注的弱点识别机制,通过比较教师和学生轨迹自动检测模型在特定域中的缺陷,避免了人工标注的繁琐。第二,设计基于弱点报告的目标任务合成策略,结合截图引导和多轮迭代,有效扩展训练数据,提升针对性和多样性。第三,引入误差感知偏好优化(DPO),在训练中区分计划与执行错误,实现行为的细粒度修正,优于传统的模仿学习和强化学习方法。第四,采用LoRA模块实现参数高效微调,保证预训练能力的同时快速适应新域。第五,整体框架融合了自动化、无标注、迭代优化等多项技术,显著提升了小模型在多域环境中的表现能力。这些创新共同推动了自动化、多任务、多域智能代理的研究前沿。

方法详解

  • �� 目标:利用教师-学生轨迹对比,自动检测模型在特定域中的弱点,生成针对性任务,提升模型性能。
  • �� 弱点检测:通过比较教师代理(性能更强)与学生模型在相同环境中的轨迹,利用验证器(V)判断成功或失败,提取失败任务和失败原因报告。
  • �� 任务合成:基于弱点报告,结合截图和环境元数据,采用两种策略:弱点导向合成(针对弱点生成任务)和探索导向合成(覆盖未探索区域),多轮迭代扩展训练集。
  • �� 数据筛选:通过多轮筛选,聚焦未解决的弱点区域,确保数据的针对性和多样性。
  • �� 训练阶段:利用偏好优化(DPO),在行为级别区分计划和执行错误,动态调整训练目标,强化模型在弱点上的修正能力。
  • �� 参数微调:采用LoRA模块,只更新特定参数,保持预训练能力,提升训练效率。
  • �� 评估:在OSWorld数据集上,比较不同生成轮次、教师策略和训练目标的效果,验证方法的有效性。

实验设计

  • �� 数据集:使用OSWorld,涵盖办公软件、系统工具、视觉编辑和编程任务,针对8个软件域进行训练和测试。
  • �� 基线模型:包括大模型(Claude、Kimi)、小模型(EvoCUA、OpenCUA)及其微调版本。
  • �� 训练策略:比较传统微调(SFT)、偏好优化(DPO)和本文提出的弱点导向多轮生成方法。
  • �� 评估指标:主要衡量成功率(成功完成任务的比例),在不同域和不同模型上进行对比。
  • �� 超参数:生成轮次N设为3-5轮,偏好温度β调节模型修正强度,LoRA参数更新比例控制训练成本。
  • �� 消融实验:验证弱点报告来源、生成轮次、训练目标对性能的影响。
  • �� 结果分析:通过多次实验,确认多轮迭代结合弱点导向策略显著优于单轮、盲探索和传统微调方法。

结果分析

  • �� 在OSWorld测试集上,经过LearnWeak微调的EvoCUA-8B模型在8个软件域中平均成功率由50.69%提升至62.24%,提升11.6个百分点,部分任务如VSCode、Gimp甚至超越了教师模型。• OpenCUA-7B模型也实现了从37.65%到48.72%的提升,表现出良好的跨域适应能力。• 多轮迭代数据生成显著优于单轮和无弱点导向方法,尤其在复杂任务中表现出更强的修正能力。• 误差感知偏好优化(DPO)在行为修正中优于传统的SFT和其他离线策略,提升模型在计划和执行两个层面上的表现。• ablation研究显示,弱点报告来源于模型自身的失败案例效果最佳,生成轮次N在中间值达到最大性能,验证了多轮优化的有效性。• 综合来看,该方法在多任务、多域环境中实现了显著性能提升,验证了其在实际应用中的潜力。

应用场景

  • �� 立即应用:该技术可用于开发面向边缘设备的智能助手,自动适应不同用户的操作习惯,提升用户体验。企业可以利用无标注数据快速定制行业专用的智能工具,减少人工成本。教育领域也能借助该方法,自动生成个性化学习助手,适应不同学生的学习风格。• 长远愿景:未来,基于弱点导向的自动化微调将推动智能代理实现更高的自主学习能力,适应不断变化的任务环境。随着模型规模的扩大和算法的优化,能在更复杂的场景中实现零标注迁移,甚至实现跨模态、多任务的泛化能力,逐步迈向真正的通用智能系统。

局限与展望

  • �� 依赖参考代理的性能,若参考模型能力不足,弱点检测和任务生成的效果会受到影响,限制在极端复杂或新颖域的适应性。• 多轮迭代虽提升数据针对性,但会带来较高的计算成本,尤其在大规模多域场景中,训练时间和资源消耗较大。• 模型微调采用LoRA模块,虽然高效,但在超大模型或极多域场景中可能面临参数更新瓶颈,限制扩展性。• 目前方法主要在静态环境下验证,动态变化的任务环境和用户行为的适应性仍需进一步研究。• 未来需要结合元学习和自我监督机制,提升模型的泛化和自适应能力。

通俗解读 非专业人士也能看懂

想象你有一个非常聪明的学生,他在学习不同的科目,比如数学、英语和科学。每次学习后,你会发现他在某些方面表现不佳,比如数学题总是算错,英语听力不行。为了帮助他变得更好,你可以观察他在哪些题型上出错,然后专门设计一些练习题,针对这些弱点反复练习。随着时间推移,他的弱点逐渐减少,成绩也越来越好。这个过程就像是让学生自己发现问题,然后有针对性地练习,逐步变得更厉害。本文的方法也是这样:它让模型自己找出在哪些任务上表现不好,然后自动生成专门的练习题,帮助模型变得更聪明、更擅长特定的软件操作。这样,不用人工一一标注,模型就能自己学习,变得越来越强。

简单解释 像给14岁少年讲一样

想象你有个超级厉害的机器人助手,它可以帮你做很多电脑上的任务,比如打开文件、写邮件、整理图片。但是,这个机器人在某些软件上表现得不太好,比如它在用Word排版时经常出错,或者在用Excel做表格时不太熟练。为了让它变得更厉害,你可以观察它哪里出错,然后专门设计一些练习,让它反复练习那些容易出错的操作。每次它做错了,你就告诉它哪里错了,让它改正。经过多次练习,它就能在这些软件上变得非常熟练,甚至比之前更厉害。这个过程就像是你教朋友学习新技能一样,先找出问题,然后集中练习,慢慢变得更棒。本文的研究也是用类似的方法,让电脑助手自己找出弱点,然后自动练习,变得更厉害,不用人工帮忙标注每个细节。

术语表

Computer-Use Agent (CUA) (计算机使用代理)

一种在软件环境中通过感知屏幕和操作界面完成任务的智能策略,属于部分可观察决策过程(POMDP)。

论文中描述的核心智能体,用于自动化软件操作任务。

弱点识别 (Weakness Detection)

通过比较教师代理与学生模型在相同任务中的表现,自动检测模型在特定域中的缺陷或错误类型。

用于指导目标任务合成和模型微调的关键步骤。

偏好优化(Preference Optimization, DPO)

一种基于偏好学习的训练方法,动态区分计划错误与执行错误,实现行为的细粒度修正。

训练阶段用以提升模型在特定弱点上的修正能力。

LoRA(Low-Rank Adaptation)

一种参数高效的微调技术,通过插入低秩矩阵实现模型微调,保持预训练能力同时快速适应新任务。

本文采用以实现多域微调的高效参数更新。

多轮迭代(Multi-round Iteration)

反复进行弱点检测、任务合成和模型训练的循环过程,以逐步逼近目标域的性能极限。

数据生成和模型微调的核心策略。

OSWorld

一个涵盖多种桌面应用和操作系统工具的评测基准,用于验证CUA在多域环境中的性能。

本文实验的主要数据集。

行为修正(Behavioral Correction)

通过区分计划与执行错误,针对性地调整模型行为以修正特定任务中的失误。

训练中的关键目标。

自动化任务合成(Automated Task Synthesis)

利用弱点报告和截图引导,自动生成针对性训练任务,避免人工标注。

数据生成的核心技术。

开放问题 这项研究留下的未解疑问

  • 1 如何在极端复杂或新颖的域中保持弱点检测的准确性?当前参考代理能力不足可能限制弱点识别的效果,未来需要结合自我监督或元学习机制提升模型的泛化能力。
  • 2 多轮迭代生成的计算成本较高,如何在保证效果的同时降低训练时间和资源消耗?未来可探索更高效的生成策略或模型压缩技术。
  • 3 模型微调的扩展性问题:在超大模型或多域场景中,参数更新可能成为瓶颈,如何设计更灵活的微调机制?
  • 4 动态环境适应:当前方法主要在静态环境验证,面对不断变化的任务需求和用户行为,如何实现持续学习和自适应?
  • 5 跨模态、多任务泛化:未来研究应关注模型在多模态信息和多任务场景中的迁移能力,推动通用智能系统的发展。

应用场景

近期应用

边缘设备智能助手

利用LearnWeak在边缘设备上实现个性化、自动化的软件操作助手,减少人工调教,提升用户体验。只需少量示例即可快速适应不同用户习惯和软件环境。

行业定制化AI工具

企业可借助该方法,无需大量人工标注,快速开发行业专用的智能软件助手,如财务、设计或客服系统,提升效率和自动化水平。

教育个性化学习助手

自动识别学生在软件操作中的弱点,生成针对性练习,帮助学生自主学习,提高学习效率,适应不同学习风格。

远期愿景

自主学习与持续适应

未来,模型将能在不断变化的环境中自主识别新弱点,自动生成训练任务,实现持续学习和自我优化,迈向更接近人类智能的水平。

跨模态多任务通用智能

结合视觉、语言和动作信息,打造具有跨模态理解和多任务处理能力的通用智能代理,推动AI在复杂真实场景中的应用。

原文摘要

Computer-use agents (CUAs) have recently made substantial progress, but deploying a separate large expert for each software domain remains expensive. Small open computer-use agents are more practical specialization targets, but they remain substantially weaker and exhibit uneven domain-specific failures. A straightforward remedy is to synthesize large-scale training data for the target domain, yet we find that this naive approach yields only marginal improvements. Building on this observation, we introduce LearnWeak, an annotation-free specialization framework for small computer-use agents that uses a stronger reference agent to identify the student's weaknesses in the target domain, synthesize targeted tasks, and construct supervision automatically. LearnWeak further introduces an error-aware specialization objective that disentangles planning and execution errors, enabling more behaviorally precise updates than broad uniform supervision. On OSWorld, LearnWeak achieves average gains of 11.6 and 11.1 percentage points over EvoCUA-8B and OpenCUA-7B, respectively, across eight domains. We also validate that our student-aware dataset generation and training approaches outperform existing autonomous trajectory generation and training baselines. Our work highlights the importance of student awareness in both data synthesis and agent training, pointing toward a more principled and efficient path for specializing small computer-use agents in diverse domains.

cs.LG cs.AI cs.CL

参考文献 (20)

OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments

Tianbao Xie, Danyang Zhang, Jixuan Chen 等

2024 732 引用 ⭐ 高影响力 查看解读 →

AgentTrek: Agent Trajectory Synthesis via Guiding Replay with Web Tutorials

Yiheng Xu, Dunjie Lu, Zhennan Shen 等

2024 81 引用 ⭐ 高影响力 查看解读 →

ZeroGUI: Automating Online GUI Learning at Zero Human Cost

Chenyu Yang, Shiqian Su, Shi Liu 等

2025 26 引用 ⭐ 高影响力 查看解读 →

EvoCUA: Evolving Computer Use Agents via Learning from Scalable Synthetic Experience

Taofeng Xue, Chong Peng, Mianqiu Huang 等

2026 18 引用 ⭐ 高影响力 查看解读 →

AgentSynth: Scalable Task Generation for Generalist Computer-Use Agents

Jingxu Xie, Dylan Xu, Xuandong Zhao 等

2025 21 引用 ⭐ 高影响力 查看解读 →

OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis

Qiushi Sun, Kanzhi Cheng, Zichen Ding 等

2024 117 引用 ⭐ 高影响力 查看解读 →

OpenCUA: Open Foundations for Computer-Use Agents

Xinyuan Wang, Bowen Wang, Dunjie Lu 等

2025 82 引用 ⭐ 高影响力 查看解读 →

Efficient Agent Training for Computer Use

Yanheng He, Jiahe Jin, Pengfei Liu

2025 9 引用 ⭐ 高影响力 查看解读 →

On the Effects of Data Scale on UI Control Agents

Wei Li, Will Bishop, Alice Li 等

2024 159 引用 查看解读 →

SEAgent: Self-Evolving Computer Use Agent with Autonomous Learning from Experience

Zeyi Sun, Ziyu Liu, Yuhang Zang 等

2025 38 引用 查看解读 →

Continual GUI Agents

Ziwei Liu, Borui Kang, Hangjie Yuan 等

2026 4 引用 查看解读 →

Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents

Yifan Song, Da Yin, Xiang Yue 等

2024 179 引用 查看解读 →

TinyAgent: Function Calling at the Edge

Lutfi Eren Erdogan, Nicholas Lee, Siddharth Jha 等

2024 48 引用 查看解读 →

Agent S2: A Compositional Generalist-Specialist Framework for Computer Use Agents

Saaket Agashe, Kyle Wong, Vincent Tu 等

2025 119 引用 查看解读 →

AgentDAM: Privacy Leakage Evaluation for Autonomous Web Agents

A. Zharmagambetov, Chuan Guo, Ivan Evtimov 等

2025 51 引用 查看解读 →

UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning

Haoming Wang, Haoyang Zou, Huatong Song 等

2025 131 引用 查看解读 →

PPTArena: A Benchmark for Agentic PowerPoint Editing

Michael Ofengenden, Yunze Man, Ziqi Pang 等

2025 6 引用 查看解读 →

Mobile-Agent-v3.5: Multi-platform Fundamental GUI Agents

Haiyang Xu, Xi Zhang, Hao Liu 等

2026 18 引用 查看解读 →

Navigating the Digital World as Humans Do: Universal Visual Grounding for GUI Agents

Boyu Gou, Ruohan Wang, Boyuan Zheng 等

2024 341 引用 查看解读 →

OS-ATLAS: A Foundation Action Model for Generalist GUI Agents

Zhiyong Wu, Zhenyu Wu, Fangzhi Xu 等

2024 306 引用 查看解读 →