OS-Themis: A Scalable Critic Framework for Generalist GUI Rewards

TL;DR

OS-Themis框架在AndroidWorld上提升10.3%,通过多代理批判机制优化GUI奖励。

cs.AI 🔴 高级 2026-03-20 65 次浏览
Zehao Li Zhenyu Wu Yibo Zhao Bowen Yang Jingjing Xie Zhaoyang Liu Zhoumianze Liu Kaiming Jin Jianze Liang Zonglin Li Feng Wu Bowen Zhou Zun Wang Zichen Ding
强化学习 GUI代理 奖励函数 多代理系统 自我进化

核心发现

方法论

OS-Themis是一种多代理批判框架,旨在提高GUI代理在随机环境中的鲁棒性。该框架通过将轨迹分解为可验证的里程碑,并使用审查机制严格审核证据链,从而在做出最终判断前确保决策的准确性。其核心组件包括里程碑验证模块和判决校准模块,分别负责轨迹的分解和证据的审核。

关键结果

  • 在AndroidWorld实验中,OS-Themis用于在线RL训练时,性能提升10.3%,用于轨迹验证和过滤时,提升6.9%。这些结果表明,OS-Themis在支持在线RL训练和自我训练循环中的潜力。
  • 在OmniGUIRewardBench上,OS-Themis在所有测试模型中均表现最佳,平均准确率提高18.8%,精确率提高29.6%,召回率提高16.9%,F1分数提高26.2%。
  • 在不同规模的RL训练中,OS-Themis在Qwen3-VL-4B模型上实现了10.3%的性能提升,显示了其在大规模基础模型上的有效性。

研究意义

OS-Themis通过解决现有奖励方法在可扩展性和性能上的不足,显著提高了GUI代理在随机环境中的鲁棒性。其多代理批判机制为奖励信号的获取提供了新的视角,能够有效隔离决策关键证据,避免错误信号的传播。这一框架不仅在学术界具有重要意义,还为工业界的GUI代理开发提供了新的可能性,尤其是在需要高精度和鲁棒性的应用场景中。

技术贡献

OS-Themis的技术贡献主要体现在其多代理批判框架的设计上,与现有单一代理方法相比,提供了更精细的轨迹验证和证据审核机制。通过引入里程碑验证和判决校准模块,OS-Themis能够有效减少错误判断,提高奖励信号的准确性。此外,该框架在跨平台GUI奖励建模中的成功应用,展示了其在不同环境下的通用性和适应性。

新颖性

OS-Themis首次将多代理批判机制应用于GUI奖励建模,通过分解轨迹和严格的证据审核,解决了现有方法在长时间任务中信号噪声比低的问题。与现有方法相比,OS-Themis不仅提高了奖励信号的精度,还通过结构化的证据链审核,避免了错误信号的传播。

局限性

  • OS-Themis在处理极端复杂的GUI任务时,可能会面临里程碑分解不足的问题,导致验证不够全面。
  • 在某些跨平台应用中,OS-Themis的性能可能会受到平台特定特性的影响,导致结果不一致。
  • 由于框架的复杂性,OS-Themis的计算成本较高,可能不适合资源受限的环境。

未来方向

未来的工作可以集中在优化OS-Themis的计算效率,降低其在资源受限环境中的应用门槛。此外,探索其在更多复杂GUI任务中的应用潜力,以及在不同平台间的性能一致性,也是值得关注的方向。进一步的研究还可以探讨如何将OS-Themis与其他强化学习方法结合,以提高其在动态环境中的适应性。

AI 总览摘要

在现代数字环境中,图形用户界面(GUI)代理的鲁棒性和适应性成为关键。然而,现有的强化学习方法在随机环境中表现不佳,主要受限于奖励函数的质量。OS-Themis框架通过引入多代理批判机制,提供了一种创新的解决方案。

OS-Themis的核心在于其多代理批判框架,该框架通过将轨迹分解为可验证的里程碑,并使用审查机制严格审核证据链,从而在做出最终判断前确保决策的准确性。其里程碑验证模块和判决校准模块分别负责轨迹的分解和证据的审核,确保奖励信号的精确性。

在实验中,OS-Themis在AndroidWorld上表现出色,在线RL训练中性能提升10.3%,用于轨迹验证和过滤时提升6.9%。在OmniGUIRewardBench上,OS-Themis在所有测试模型中均表现最佳,显示了其在跨平台应用中的潜力。

OS-Themis的成功不仅在于其技术创新,还在于其在学术界和工业界的广泛应用潜力。通过解决现有方法在可扩展性和性能上的不足,OS-Themis为GUI代理的开发提供了新的视角。

然而,OS-Themis也面临一些挑战,如在极端复杂任务中的里程碑分解不足,以及跨平台应用中的性能一致性问题。未来的研究可以集中在优化其计算效率和探索更多应用场景。

总之,OS-Themis框架为GUI代理的奖励建模提供了一种创新的解决方案,其多代理批判机制在提高奖励信号精度和鲁棒性方面表现出色,具有广泛的应用前景。

深度分析

研究背景

近年来,随着计算能力的提升和深度学习的普及,图形用户界面(GUI)代理在数字任务中的应用越来越广泛。然而,尽管这些代理在大规模训练下能够掌握常规工作流程,但在随机环境中仍表现出脆弱性,难以从偏差中恢复或推广到未见过的场景。这一问题促使研究者转向强化学习(RL),以实现自适应校正。然而,RL的成功在很大程度上依赖于可靠的奖励信号,这使得奖励建模成为一个关键挑战。现有的奖励获取方法主要分为三类:基于规则的方法、基于人类反馈的验证器、以及利用基础模型的广泛世界知识进行广义推理的方法。尽管这些方法各有优缺点,但在长时间任务中,信号噪声比低的问题仍然存在。

核心问题

在GUI环境中,奖励建模是强化学习成功的关键。然而,现有方法在长时间任务中信号噪声比低的问题仍然存在,导致决策关键证据难以提取。此外,将轨迹中的关键信息转换为精确的奖励也是一个挑战。现有方法往往导致过于乐观的判断,向在线RL传递错误信号,误导策略更新。这些问题使得现有的奖励方法难以在可扩展性和性能上同时取得突破。

核心创新

OS-Themis框架通过引入多代理批判机制,创新性地解决了现有方法在奖励建模中的不足。其核心创新包括:

1) 里程碑验证模块:通过将轨迹分解为可验证的里程碑,分配明确且可观察的子目标,从而有效隔离决策关键证据。

2) 判决校准模块:通过审查机制严格审核证据链,纠正过于乐观的评估,防止错误信号的传播。

3) 跨平台GUI奖励建模:OS-Themis在OmniGUIRewardBench上表现出色,展示了其在不同环境下的通用性和适应性。

方法详解

OS-Themis框架的设计包括以下关键步骤:

  • �� 里程碑验证模块:将轨迹分解为里程碑,分配明确且可观察的子目标。
  • �� 判决校准模块:通过审查机制严格审核证据链,纠正过于乐观的评估。
  • �� 多代理协作:通过协作工作流,确保奖励信号的准确性和鲁棒性。
  • �� 跨平台应用:在OmniGUIRewardBench上进行广泛测试,验证其在不同环境下的通用性。

实验设计

实验设计包括在AndroidWorld和OmniGUIRewardBench上进行广泛测试。在AndroidWorld上,OS-Themis用于在线RL训练时,性能提升10.3%,用于轨迹验证和过滤时,提升6.9%。在OmniGUIRewardBench上,OS-Themis在所有测试模型中均表现最佳,平均准确率提高18.8%,精确率提高29.6%,召回率提高16.9%,F1分数提高26.2%。这些实验结果验证了OS-Themis在不同环境下的有效性和适应性。

结果分析

实验结果显示,OS-Themis在AndroidWorld上用于在线RL训练时,性能提升10.3%,用于轨迹验证和过滤时,提升6.9%。在OmniGUIRewardBench上,OS-Themis在所有测试模型中均表现最佳,平均准确率提高18.8%,精确率提高29.6%,召回率提高16.9%,F1分数提高26.2%。这些结果表明,OS-Themis在支持在线RL训练和自我训练循环中的潜力。

应用场景

OS-Themis框架在GUI代理的奖励建模中具有广泛的应用潜力。其多代理批判机制能够有效提高奖励信号的精度和鲁棒性,适用于需要高精度和鲁棒性的应用场景。此外,OS-Themis在跨平台GUI奖励建模中的成功应用,展示了其在不同环境下的通用性和适应性。

局限与展望

尽管OS-Themis在奖励建模中表现出色,但在极端复杂的GUI任务中,可能会面临里程碑分解不足的问题。此外,在某些跨平台应用中,OS-Themis的性能可能会受到平台特定特性的影响,导致结果不一致。由于框架的复杂性,OS-Themis的计算成本较高,可能不适合资源受限的环境。未来的研究可以集中在优化其计算效率和探索更多应用场景。

通俗解读 非专业人士也能看懂

想象一下,你在厨房里做饭。每道菜都有几个关键步骤,比如切菜、炒菜、调味等。OS-Themis就像一个聪明的厨师助手,它会把整个做菜过程分解成这些关键步骤,然后逐一检查每个步骤是否正确完成。这样,即使你在做菜过程中出现了小错误,它也能及时发现并纠正,确保最后的菜肴美味可口。这个助手不仅能在厨房里帮你做菜,还能在不同的厨房中工作,比如中餐、西餐、日餐等。它能根据不同的菜系调整自己的工作方式,确保每道菜都能达到最佳口感。OS-Themis的多代理系统就像是多个厨师助手一起协作,每个助手都有自己的专长,确保整个过程的高效和准确。即使在复杂的菜肴中,它也能通过分工合作,确保每个步骤都能顺利完成。

简单解释 像给14岁少年讲一样

嘿,小伙伴!你知道吗,有时候电脑程序就像我们玩游戏一样,需要在不同的环境中做出反应。想象一下,你在玩一个超级复杂的游戏,每个关卡都有很多小任务,比如找到钥匙、打开门、打败怪物。OS-Themis就像一个超级聪明的游戏助手,它会帮你把每个关卡分解成这些小任务,然后一步步指导你完成。即使你在某个关卡中迷路了,它也能帮你找到正确的方向。这个助手不仅能在一个游戏中帮你,还能在不同的游戏中工作,比如动作游戏、解谜游戏、冒险游戏等。它能根据不同的游戏类型调整自己的策略,确保你能顺利通关。OS-Themis的多代理系统就像是多个游戏助手一起协作,每个助手都有自己的专长,确保整个游戏过程的高效和准确。即使在超级复杂的游戏中,它也能通过分工合作,确保每个任务都能顺利完成。

术语表

OS-Themis

OS-Themis是一种多代理批判框架,旨在提高GUI代理在随机环境中的鲁棒性。

在本文中,OS-Themis用于优化GUI奖励信号的获取。

多代理系统

多代理系统是一种协作工作流,多个代理共同完成任务。

OS-Themis通过多代理系统实现奖励信号的精确获取。

里程碑验证模块

里程碑验证模块负责将轨迹分解为可验证的里程碑,确保决策关键证据的隔离。

在OS-Themis中,该模块用于提高奖励信号的准确性。

判决校准模块

判决校准模块通过审查机制严格审核证据链,纠正过于乐观的评估。

在OS-Themis中,该模块用于防止错误信号的传播。

OmniGUIRewardBench

OmniGUIRewardBench是一个跨平台的GUI奖励模型基准,用于评估不同模型的表现。

本文中,OS-Themis在OmniGUIRewardBench上表现出色。

强化学习

强化学习是一种机器学习方法,通过奖励信号优化策略。

在本文中,强化学习用于提高GUI代理的鲁棒性。

奖励函数

奖励函数是强化学习中的关键组件,用于指导策略优化。

本文中,OS-Themis通过多代理批判机制优化奖励函数。

信号噪声比

信号噪声比是衡量信号质量的指标,较低的信号噪声比可能导致错误判断。

在长时间任务中,现有方法的信号噪声比低的问题被OS-Themis解决。

跨平台应用

跨平台应用指在不同平台上实现一致性能的应用。

OS-Themis在OmniGUIRewardBench上展示了其跨平台应用的潜力。

自我进化

自我进化是指系统通过自身的学习和适应能力不断提高性能。

OS-Themis通过奖励信号的优化实现了GUI代理的自我进化。

开放问题 这项研究留下的未解疑问

  • 1 在极端复杂的GUI任务中,OS-Themis的里程碑分解可能不足,导致验证不够全面。这一问题需要进一步研究,以提高其在复杂任务中的适应性。
  • 2 在跨平台应用中,OS-Themis的性能可能会受到平台特定特性的影响,导致结果不一致。未来的研究可以集中在提高其跨平台性能的一致性。
  • 3 OS-Themis的计算成本较高,可能不适合资源受限的环境。优化其计算效率是未来研究的一个重要方向。
  • 4 现有的多代理批判机制在某些情况下可能无法完全隔离决策关键证据,导致错误信号的传播。进一步的研究可以集中在提高其证据隔离能力。
  • 5 在动态环境中,OS-Themis的适应性可能受到限制。未来的研究可以探索如何将其与其他强化学习方法结合,以提高其适应性。

应用场景

近期应用

移动应用测试

OS-Themis可以用于提高移动应用测试中GUI代理的鲁棒性和精度,确保应用在不同设备和环境中的一致性。

跨平台软件开发

在跨平台软件开发中,OS-Themis可以帮助开发者优化GUI代理的奖励信号,提高软件在不同平台上的性能一致性。

自动化用户界面设计

OS-Themis可以用于自动化用户界面设计中的奖励建模,帮助设计师优化界面布局和用户体验。

远期愿景

智能家居系统

OS-Themis可以用于智能家居系统中的GUI代理优化,提高系统在不同环境中的适应性和鲁棒性。

无人驾驶汽车界面

在无人驾驶汽车中,OS-Themis可以用于优化车载界面的奖励信号,提高驾驶安全性和用户体验。

原文摘要

Reinforcement Learning (RL) has the potential to improve the robustness of GUI agents in stochastic environments, yet training is highly sensitive to the quality of the reward function. Existing reward approaches struggle to achieve both scalability and performance. To address this, we propose OS-Themis, a scalable and accurate multi-agent critic framework. Unlike a single judge, OS-Themis decomposes trajectories into verifiable milestones to isolate critical evidence for decision making and employs a review mechanism to strictly audit the evidence chain before making the final verdict. To facilitate evaluation, we further introduce OmniGUIRewardBench (OGRBench), a holistic cross-platform benchmark for GUI outcome rewards, where all evaluated models achieve their best performance under OS-Themis. Extensive experiments on AndroidWorld show that OS-Themis yields a 10.3% improvement when used to support online RL training, and a 6.9% gain when used for trajectory validation and filtering in the self-training loop, highlighting its potential to drive agent evolution.

cs.AI

参考文献 (20)

ScaleCUA: Scaling Open-Source Computer Use Agents with Cross-Platform Data

Zhaoyang Liu, Jingjing Xie, Zichen Ding 等

2025 17 引用 ⭐ 高影响力 查看解读 →

DigiRL: Training In-The-Wild Device-Control Agents with Autonomous Reinforcement Learning

Hao Bai, Yifei Zhou, M. Cemri 等

2024 149 引用 ⭐ 高影响力 查看解读 →

WebRL: Training LLM Web Agents via Self-Evolving Online Curriculum Reinforcement Learning

Zehan Qi, Xiao Liu, Iat Long Iong 等

2024 143 引用 ⭐ 高影响力 查看解读 →

Scaling Computer-Use Grounding via User Interface Decomposition and Synthesis

Tianbao Xie, Jiaqi Deng, Xiaochuan Li 等

2025 70 引用 ⭐ 高影响力 查看解读 →

Agent-RewardBench: Towards a Unified Benchmark for Reward Modeling across Perception, Planning, and Safety in Real-World Multimodal Agents

Tianyi Men, Zhuoran Jin, Pengfei Cao 等

2025 11 引用 查看解读 →

SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents

Kanzhi Cheng, Qiushi Sun, Yougang Chu 等

2024 412 引用 查看解读 →

HybridFlow: A Flexible and Efficient RLHF Framework

Guangming Sheng, Chi Zhang, Zilingfeng Ye 等

2024 1319 引用 查看解读 →

OS-Sentinel: Towards Safety-Enhanced Mobile GUI Agents via Hybrid Validation in Realistic Workflows

Qiushi Sun, Mukai Li, Zhoumianze Liu 等

2025 5 引用 查看解读 →

Decoupled Weight Decay Regularization

I. Loshchilov, F. Hutter

2017 31820 引用

DistRL: An Asynchronous Distributed Reinforcement Learning Framework for On-Device Control Agents

Taiyi Wang, Zhihao Wu, Jianheng Liu 等

2024 58 引用 查看解读 →

SEAgent: Self-Evolving Computer Use Agent with Autonomous Learning from Experience

Zeyi Sun, Ziyu Liu, Yuhang Zang 等

2025 28 引用 查看解读 →

UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning

Haoming Wang, Haoyang Zou, Huatong Song 等

2025 85 引用 查看解读 →

OS-Symphony: A Holistic Framework for Robust and Generalist Computer-Using Agent

Bowen Yang, Kaiming Jin, Zhenyu Wu 等

2026 4 引用 查看解读 →

UI-S1: Advancing GUI Automation via Semi-online Reinforcement Learning

Zhengxi Lu, Jiabo Ye, Fei Tang 等

2025 5 引用 查看解读 →

Claude 3.7 Sonnet System Card

121 引用

OS-ATLAS: A Foundation Action Model for Generalist GUI Agents

Zhiyong Wu, Zhenyu Wu, Fangzhi Xu 等

2024 251 引用 查看解读 →

MMBench-GUI: Hierarchical Multi-Platform Evaluation Framework for GUI Agents

Xuehui Wang, Zhenyu Wu, Jingjing Xie 等

2025 28 引用 查看解读 →

Mobile-Agent-v3: Fundamental Agents for GUI Automation

Jiabo Ye, Xi Zhang, Haiyang Xu 等

2025 73 引用 查看解读 →

LLMs-as-Judges: A Comprehensive Survey on LLM-based Evaluation Methods

Haitao Li, Qian Dong, Junjie Chen 等

2024 380 引用 查看解读 →

Agent S: An Open Agentic Framework that Uses Computers Like a Human

Saaket Agashe, Jiuzhou Han, Shuyu Gan 等

2024 119 引用 查看解读 →