Skill-RM: Unifying Heterogeneous Evaluation Criteria via Agent Skill

TL;DR

Skill-RM通过Agent技能统一多样评价标准,在奖励模型中实现动态资源调度,提升性能,实验中在RewardBench2等基准上优于传统方法。

cs.LG 🔴 高级 2026-06-03 79 次浏览
Tao Chen Gangwei Jiang Pengyu Cheng Siyuan Huang Yihao Liu Jingwei Ni Jiaqi Guo Mengyu Zhou Kai Tang Junling Liu Qinliang Su Xiaoxi Jiang Guanjun Jiang
奖励模型 多模态资源调度 Agent技能 强化学习 评价体系

核心发现

方法论

本研究提出的Skill-RM框架将奖励建模转化为可重用的Reward-Evaluation Skill,通过定义明确的调用协议和资源库,实现对异构资源(如规则、参考、验证器等)的动态调度与整合。核心组件包括奖励评估技能(SRM)、资源库(URM)和基于技能的评估流程。评估流程由智能评判模型(πφ)驱动,逐步检索和调用资源,生成结构化的证据链,最终通过解析证据形成奖励输出。该框架突破了传统单一标量评分的局限,实现了多模态、多资源的可解释性和可追溯性,显著提升奖励质量。具体算法包括基于任务定义的调用协议、Criterion-level Evidence采集机制,以及Evidence聚合策略。实验中,Skill-RM在RewardBench2、RM-Bench和JudgeBench等多个基准上,采用Qwen-3.5-27B和Qwen-3.5-122B模型作为基础,表现出比传统判别模型和静态奖励模型更优的得分,提升幅度在3-6个百分点。

关键结果

  • 在RewardBench2上,Skill-RM以86.2的平均得分超越传统判别模型(如GPT-4 Judge的65.9)和静态奖励模型(如INF-ORM-Llama3.1-70B的74.0),提升了约10个百分点。该方法在多维奖励任务中表现出更强的鲁棒性和一致性。
  • 在Reward-Bench和JudgeBench中,Skill-RM在多项指标上均优于对比方法,尤其在多模态资源调度和证据整合方面表现突出。例如,在内容细腻度和风格一致性评估中,得分提升了4-6个百分点,验证了其在复杂评价场景中的适应性。
  • 通过消融实验,作者发现Skill-RM的性能提升主要源于其对资源的动态调度和证据整合能力,而非仅仅增加资源或工具的数量。具体表现为在无资源调度机制下,性能下降约4个百分点,验证了策略设计的有效性。

研究意义

本研究在奖励模型领域具有重要突破意义。传统奖励机制多依赖静态标量评分,难以应对复杂、多样化的评价需求,导致评估结果缺乏透明度和可解释性。Skill-RM通过引入Agent技能,将奖励建模转化为结构化、可调度的执行过程,不仅提升了奖励的准确性和一致性,还增强了模型的可追溯性和适应性。这一创新为大规模语言模型(LLMs)在多任务、多模态、多资源环境中的应用提供了坚实基础,有望推动自动化评估、模型对齐和强化学习等领域的快速发展。其在实际应用中,能显著改善模型的行为指导效果,提升模型在复杂任务中的表现,为未来智能系统的可靠性和透明度树立新标杆。

技术贡献

技术上,本文提出了Reward-Evaluation Skill的概念,将奖励建模从单一标量评分转变为结构化、资源驱动的执行流程。创新点包括定义明确的调用协议、Criterion-level Evidence采集机制和Evidence聚合策略,形成了一个模块化、可重用的奖励评估体系。该体系突破了传统基于静态prompt或单一判别模型的局限,实现了多模态、多资源的动态调度与整合。通过引入资源库(URM)和技能规范(MRM),实现了对异构资源的高效调用和证据追踪,增强了评估的可解释性和可控性。实验验证显示,该方法在多个基准上优于现有最优模型,证明了其在奖励建模中的优越性和广泛适用性。

新颖性

本研究的创新在于将奖励建模系统化为Agent技能,首次提出Reward-Evaluation Skill的概念,系统性整合异构评价资源,实现动态调度与证据整合。与传统方法仅依赖静态prompt或单一判别机制不同,Skill-RM通过明确的调用协议和结构化证据链,显著提升了奖励的透明度和适应性。这一设计突破了现有奖励模型在多模态、多资源环境中的局限,为奖励建模提供了全新的架构思路。其在多任务、多场景中的优异表现,验证了该创新的实用价值和理论意义。

局限性

  • 尽管Skill-RM在多模态、多资源调度方面表现优异,但其依赖的资源库构建和维护成本较高,特别是在实际应用中需要大量标注和资源整合工作,可能影响推广速度。
  • 该方法在极端复杂场景下(如多轮对话、多模态交互)仍存在资源调度瓶颈,尤其是在资源调用延迟和证据整合效率方面需要优化。
  • 当前模型主要在大规模预训练模型基础上验证,未来需考虑在边缘设备或低算力环境中的适应性,以及对实时性和鲁棒性的进一步提升。

未来方向

未来,作者计划探索更高效的资源管理策略,降低资源库的维护成本,并引入自适应学习机制,使Reward-Evaluation Skill能在不同任务和环境中自动优化资源调度策略。此外,将该框架扩展到多模态、多轮对话和实时交互场景,提升系统的泛化能力和实时响应能力,也是未来的重要方向。进一步结合强化学习和自监督机制,优化证据整合和奖励反馈的效率,推动奖励模型在实际应用中的落地和普及。

AI 总览摘要

在当前大规模语言模型(LLMs)快速发展的背景下,奖励模型(Reward Models, RMs)作为引导模型行为的重要工具,面临着多样化评价标准的挑战。传统的奖励机制多依赖静态标量评分或单一判别模型,难以应对复杂、多模态、多资源的评价需求。这不仅限制了模型在多任务环境中的表现,也削弱了奖励结果的透明度和可追溯性。

为解决这一难题,Tao Chen等人提出了Skill-RM(Skill Reward Model)框架,将奖励建模转化为一种结构化、资源调度驱动的Agent技能。该方法通过定义Reward-Evaluation Skill,结合明确的调用协议和资源库,实现对异构资源(如规则、参考、验证器等)的动态调度与整合。核心思想是将奖励评估过程拆解为多个可控、可追溯的步骤,每个步骤由模型主动调用相关资源,生成结构化证据链,最终形成可解释的奖励输出。

这一创新突破了传统静态评分的局限,使奖励模型具备更高的灵活性和透明度。实验结果显示,在RewardBench2、RM-Bench和JudgeBench等多个基准测试中,Skill-RM均优于现有最优模型,提升幅度在3-6个百分点,验证了其在多维、多模态评价场景中的优越性。特别是在多资源调度和证据整合方面,Skill-RM展现出强大的适应性和鲁棒性。

从技术角度看,Skill-RM的核心贡献在于提出Reward-Evaluation Skill的概念,定义了资源调用协议、Criterion-level Evidence采集机制和Evidence聚合策略,形成了一个模块化、可重用的奖励评估体系。这不仅提升了奖励的可解释性,也为未来奖励模型的设计提供了新的架构思路。该方法的推广,有望推动自动化评估、模型对齐和强化学习等领域的快速发展,为智能系统的可靠性和透明度树立了新标杆。

然而,框架在实际应用中仍面临资源库构建成本高、复杂场景下调度瓶颈等挑战。未来,作者计划优化资源管理策略,扩展到多模态、多轮交互场景,并结合强化学习机制,进一步提升系统的效率和适应性。这一研究为奖励模型的未来发展提供了宝贵的理论基础和实践路径,具有深远的学术和工业价值。

深度解读

原文摘要

Reward models (RMs) provide critical feedback signals for LLM post-training, notably in reinforced fine-tuning (RFT) and reinforcement learning (RL) pipelines. However, current reward evaluation relies on heterogeneous criteria such as rule-based verifiers, ground-truth references, procedural checklists, and complex rubrics, where a unified mechanism to integrate all types of evidence remains unexplored. To this end, we propose Skill Reward Model (Skill-RM), a unified framework that reformulates reward modeling as the execution of a reusable Reward-Evaluation Skill. By treating reward computation as a structured agentic task, Skill-RM provides a consistent interface to orchestrate heterogeneous resources, dynamically selecting and aggregating evidence tailored to the specific requirements of each input. This approach enables the reward model to move beyond static evaluation, ensuring consistency and transparency across diverse tasks. Extensive experiments on reward benchmarks and downstream applications, including best-of-N selection and reinforcement learning, demonstrate that Skill-RM consistently outperforms traditional judge baselines. Our findings suggest that Skill-RM not only provides a unified solution for reward modeling but also achieves superior performance through the strategic and dynamic orchestration of evidence. The code is at https://github.com/Qwen-Applications/Skill-RM.

cs.LG cs.CL

参考文献 (20)

JudgeBench: A Benchmark for Evaluating LLM-based Judges

Sijun Tan, Siyuan Zhuang, Kyle Montgomery 等

2024 256 引用 ⭐ 高影响力 查看解读 →

RewardBench 2: Advancing Reward Model Evaluation

Saumya Malik, Valentina Pyatkin, Sander Land 等

2025 94 引用 ⭐ 高影响力 查看解读 →

Direct Preference Optimization: Your Language Model is Secretly a Reward Model

Rafael Rafailov, Archit Sharma, E. Mitchell 等

2023 8981 引用 ⭐ 高影响力 查看解读 →

Judging LLM-as-a-judge with MT-Bench and Chatbot Arena

Lianmin Zheng, Wei-Lin Chiang, Ying Sheng 等

2023 8897 引用 ⭐ 高影响力 查看解读 →

SoK: Agentic Skills - Beyond Tool Use in LLM Agents

Yanna Jiang, Delong Li, Hai Deng 等

2026 44 引用 ⭐ 高影响力 查看解读 →

Incentivizing Agentic Reasoning in LLM Judges via Tool-Integrated Reinforcement Learning

Ran Xu, Jingjing Chen, Jiayu Ye 等

2025 13 引用 ⭐ 高影响力 查看解读 →

VerIF: Verification Engineering for Reinforcement Learning in Instruction Following

Hao Peng, Yunjia Qi, Xiaozhi Wang 等

2025 26 引用 查看解读 →

Voyager: An Open-Ended Embodied Agent with Large Language Models

Guanzhi Wang, Yuqi Xie, Yunfan Jiang 等

2023 1755 引用 查看解读 →

Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models

Seungone Kim, Juyoung Suk, Shayne Longpre 等

2024 436 引用 查看解读 →

Everyone Deserves A Reward: Learning Customized Human Preferences

Pengyu Cheng, Jiawen Xie, Ke Bai 等

2023 46 引用 查看解读 →

FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets

Seonghyeon Ye, Doyoung Kim, Sungdong Kim 等

2023 196 引用 查看解读 →

Interpretable Preferences via Multi-Objective Reward Modeling and Mixture-of-Experts

Haoxiang Wang, Wei Xiong, Tengyang Xie 等

2024 378 引用 查看解读 →

Evaluating Large Language Models Trained on Code

Mark Chen, Jerry Tworek, Heewoo Jun 等

2021 9888 引用 查看解读 →

Think-RM: Enabling Long-Horizon Reasoning in Generative Reward Models

Ilgee Hong, Changlong Yu, Liang Qiu 等

2025 11 引用 查看解读 →

FActScore: Fine-grained Atomic Evaluation of Factual Precision in Long Form Text Generation

Sewon Min, Kalpesh Krishna, Xinxi Lyu 等

2023 1325 引用 查看解读 →

Can External Validation Tools Improve Annotation Quality for LLM-as-a-Judge?

Arduin Findeis, Floris Weers, Guoli Yin 等

2025 8 引用 查看解读 →

Prometheus: Inducing Fine-grained Evaluation Capability in Language Models

Seungone Kim, Jamin Shin, Yejin Cho 等

2023 501 引用 查看解读 →

FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models

Yuxin Jiang, Yufei Wang, Xingshan Zeng 等

2023 94 引用 查看解读 →

RewardBench: Evaluating Reward Models for Language Modeling

Nathan Lambert, Valentina Pyatkin, Jacob Daniel Morrison 等

2024 425 引用 查看解读 →

Search Self-play: Pushing the Frontier of Agent Capability without Supervision

Hongliang Lu, Yuhang Wen, Pengyu Cheng 等

2025 19 引用 查看解读 →