From Passive Observer to Active Critic: Reinforcement Learning Elicits Process Reasoning for Robotic Manipulation

核心发现

方法论

本文提出了一种名为PRIMO R1的7B框架，通过结果导向的强化学习促进显式的思维链生成，以进行进度估计。该方法通过在初始和当前状态图像之间明确锚定视频序列，构建了结构化的时间输入。PRIMO数据集和基准支持的广泛实验表明，该框架在多种领域内环境和域外真实世界人形场景中实现了最先进的性能。

关键结果

PRIMO R1在专门的推理基线上的平均绝对误差减少了50%，显示出相对于72B规模的通用MLLMs的显著相对精度提升。
在RoboFail基准上，PRIMO R1以67.0%的准确率实现了最先进的性能，超过了像OpenAI o1这样的闭源模型6.0%。
PRIMO R1在困难的故障检测任务上表现出强大的零样本泛化能力，表明其在不同场景下的适应性。

研究意义

本研究通过将视频MLLMs从被动观察者转变为主动批评者，解决了长时间机器人操作中准确过程监督的关键挑战。这种转变不仅提高了模型在特定任务中的精度，还在不同领域和场景中展示了其强大的泛化能力。PRIMO R1的成功应用表明，结果导向的强化学习可以显著改善机器人操作中的过程推理能力，为未来的机器人技术发展提供了新的视角和方法。

技术贡献

PRIMO R1的技术贡献在于其通过结果导向的强化学习和显式思维链生成，提供了与现有最先进方法的根本区别。该框架不仅在理论上提供了新的保证，还在工程上开辟了新的可能性，特别是在视频MLLMs的主动性和过程推理能力方面。通过在初始和当前状态之间锚定视频序列，PRIMO R1实现了更精确的进度估计和故障检测。

新颖性

PRIMO R1的创新之处在于其首次将视频MLLMs转变为主动批评者，而不是仅仅作为被动观察者。这种转变通过结果导向的强化学习和显式思维链生成，显著提升了过程推理的准确性和泛化能力，与现有的监督微调方法形成鲜明对比。

局限性

PRIMO R1在处理极端复杂的场景时可能会遇到挑战，因为这些场景可能需要更高的计算资源和更复杂的模型架构。
该方法在某些特定领域外的应用可能需要进一步的微调，以适应不同的任务需求和环境变化。
虽然PRIMO R1在许多任务中表现出色，但其在实时应用中的计算成本仍然是一个需要解决的问题。

未来方向

未来的研究方向包括进一步优化PRIMO R1的计算效率，以便在实时应用中实现更广泛的应用。此外，探索该框架在更多领域外场景中的适应性和性能，以及如何通过结合其他先进技术来增强其过程推理能力，也是值得关注的方向。

AI 总览摘要

长时间机器人操作中的准确过程监督一直是一个关键挑战。现有的视频多模态大模型（MLLMs）主要在监督微调范式下训练，通常作为被动的“观察者”来识别正在进行的事件，而不是评估当前状态与最终任务目标的关系。本文提出了一种名为PRIMO R1的7B框架，通过结果导向的强化学习将视频MLLMs转变为主动的“批评者”。该框架通过显式的思维链生成来激励进度估计，并通过在初始和当前状态图像之间明确锚定视频序列来构建结构化的时间输入。

在PRIMO数据集和基准的支持下，广泛的实验表明，PRIMO R1在多种领域内环境和域外真实世界人形场景中实现了最先进的性能。具体而言，PRIMO R1在专门的推理基线上的平均绝对误差减少了50%，显示出相对于72B规模的通用MLLMs的显著相对精度提升。此外，PRIMO R1在困难的故障检测任务上表现出强大的零样本泛化能力。

在RoboFail基准上，PRIMO R1以67.0%的准确率实现了最先进的性能，超过了像OpenAI o1这样的闭源模型6.0%。这些结果表明，PRIMO R1不仅在特定任务中表现出色，还具有广泛的适应性和泛化能力。

PRIMO R1的成功应用表明，结果导向的强化学习可以显著改善机器人操作中的过程推理能力，为未来的机器人技术发展提供了新的视角和方法。通过将视频MLLMs从被动观察者转变为主动批评者，PRIMO R1解决了长时间机器人操作中准确过程监督的关键挑战。

然而，PRIMO R1在处理极端复杂的场景时可能会遇到挑战，因为这些场景可能需要更高的计算资源和更复杂的模型架构。未来的研究方向包括进一步优化PRIMO R1的计算效率，以便在实时应用中实现更广泛的应用。

深度分析

研究背景

在长时间机器人操作中，准确的过程监督一直是一个关键挑战。现有的视频多模态大模型（MLLMs）主要在监督微调范式下训练，通常作为被动的“观察者”来识别正在进行的事件，而不是评估当前状态与最终任务目标的关系。这种被动观察的局限性导致了在复杂任务中缺乏有效的进度估计和故障检测能力。近年来，随着深度学习和强化学习技术的发展，研究人员开始探索如何将这些技术应用于机器人操作中的过程推理，以提高模型的主动性和准确性。

核心问题

现有的视频MLLMs在长时间机器人操作中的应用面临着几个核心问题。首先，这些模型通常作为被动的观察者，缺乏对当前状态与最终任务目标的评估能力。其次，现有的方法在复杂任务中的进度估计和故障检测能力有限，难以应对多样化的任务需求和环境变化。最后，传统的监督微调方法在处理长时间任务时，往往需要大量的标注数据和计算资源，难以实现高效的过程监督。

核心创新

PRIMO R1的核心创新在于其通过结果导向的强化学习将视频MLLMs转变为主动的批评者。具体来说：

�� 结果导向的强化学习：通过激励显式的思维链生成，PRIMO R1能够更准确地进行进度估计。

�� 结构化的时间输入：通过在初始和当前状态图像之间明确锚定视频序列，PRIMO R1能够更好地捕捉任务进展。

�� 零样本泛化能力：PRIMO R1在困难的故障检测任务上表现出强大的零样本泛化能力，表明其在不同场景下的适应性。

方法详解

PRIMO R1的实现包括以下关键步骤：

�� 结果导向的强化学习：通过奖励机制激励模型生成显式的思维链，以进行进度估计。

�� 视频序列锚定：在初始和当前状态图像之间明确锚定视频序列，以构建结构化的时间输入。

�� 思维链生成：利用强化学习技术，PRIMO R1能够生成显式的思维链，从而提高进度估计的准确性。

�� 零样本泛化：通过在多种领域内环境和域外真实世界人形场景中的广泛实验，验证PRIMO R1的零样本泛化能力。

实验设计

实验设计包括使用PRIMO数据集和基准进行广泛的测试。具体而言，实验在多种领域内环境和域外真实世界人形场景中进行，以验证PRIMO R1的性能。实验使用的基线包括现有的72B规模的通用MLLMs，评估指标包括平均绝对误差和故障检测准确率。实验还进行了消融研究，以分析PRIMO R1中各个组件的贡献和影响。

结果分析

实验结果表明，PRIMO R1在专门的推理基线上的平均绝对误差减少了50%，显示出相对于72B规模的通用MLLMs的显著相对精度提升。此外，PRIMO R1在RoboFail基准上以67.0%的准确率实现了最先进的性能，超过了像OpenAI o1这样的闭源模型6.0%。这些结果表明，PRIMO R1不仅在特定任务中表现出色，还具有广泛的适应性和泛化能力。

应用场景

PRIMO R1的应用场景包括长时间机器人操作中的过程监督和故障检测。该框架可以直接应用于需要高精度过程推理的任务，如工业自动化和智能制造。此外，PRIMO R1的零样本泛化能力使其在不同领域和场景中具有广泛的适应性，能够应对多样化的任务需求和环境变化。

局限与展望

尽管PRIMO R1在许多任务中表现出色，但其在处理极端复杂的场景时可能会遇到挑战。特别是，这些场景可能需要更高的计算资源和更复杂的模型架构。此外，PRIMO R1在某些特定领域外的应用可能需要进一步的微调，以适应不同的任务需求和环境变化。未来的研究方向包括进一步优化PRIMO R1的计算效率，以便在实时应用中实现更广泛的应用。

通俗解读非专业人士也能看懂

想象一下，你在厨房里做饭。你有一个助手，他通常只是观察你做什么，而不是告诉你你做得如何。现在，假设这个助手变得更加聪明，他不仅能看到你在做什么，还能告诉你你离完成菜肴还有多远，甚至指出你可能犯的错误。这就是PRIMO R1的作用。它就像一个聪明的助手，通过观察视频，主动评估机器人在任务中的进展，并提供反馈。这种能力使机器人在复杂的任务中更有效率，就像一个经验丰富的厨师能够更好地管理厨房的每个步骤。PRIMO R1通过强化学习技术实现了这一点，使得机器人不仅仅是被动的观察者，而是能够主动参与和评估任务进展的批评者。这种转变使得机器人在处理长时间任务时更加高效和准确，就像一个经验丰富的厨师能够在复杂的菜肴中游刃有余。

简单解释像给14岁少年讲一样

嘿，小伙伴！你知道机器人是怎么工作的吧？想象一下，有一个机器人在帮你打扫房间，但它只是看着你，不知道自己做得怎么样。这就像一个只会看不会说的朋友。而PRIMO R1就像一个超级聪明的机器人助手，它不仅能看到自己在做什么，还能告诉你它离完成任务还有多远，甚至能指出哪里做错了。就像在玩游戏时，你的游戏角色不仅能看到前方的路，还能知道自己离终点有多远。这种能力让机器人在复杂的任务中更有效率，就像你在游戏中能更快地过关一样。PRIMO R1通过一种叫做强化学习的技术实现了这一点，让机器人变得更加聪明和主动。想象一下，如果你有这样一个聪明的机器人助手，生活会变得多么有趣！

术语表

强化学习 (Reinforcement Learning)

一种机器学习方法，通过奖励机制来训练模型，使其能够在特定任务中做出最佳决策。

在PRIMO R1中用于激励显式思维链生成。

视频多模态大模型 (Video MLLMs)

一种能够处理和分析视频数据的多模态大模型，通常用于识别和理解视频中的事件。

PRIMO R1通过强化学习将其转变为主动批评者。

思维链 (Chain-of-Thought)

一种推理过程，通过一系列逻辑步骤来估计任务进度或解决问题。

在PRIMO R1中用于进度估计。

零样本泛化 (Zero-Shot Generalization)

模型在未见过的任务或场景中表现良好的能力。

PRIMO R1在故障检测任务中展示了这一能力。

过程推理 (Process Reasoning)

在任务执行过程中评估当前状态与目标之间关系的能力。

PRIMO R1通过强化学习提升了这一能力。

监督微调 (Supervised Fine-Tuning)

通过标注数据对预训练模型进行微调，以提高其在特定任务中的性能。

现有视频MLLMs主要在这种范式下训练。

RoboFail基准 (RoboFail Benchmark)

用于评估机器人故障检测性能的基准测试。

PRIMO R1在该基准上实现了最先进的性能。

主动批评者 (Active Critic)

能够主动评估任务进展并提供反馈的模型角色。

PRIMO R1通过强化学习实现了这一角色转变。

结构化时间输入 (Structured Temporal Input)

通过明确锚定视频序列的初始和当前状态来构建的时间输入。

PRIMO R1使用这种输入来提高进度估计的准确性。

平均绝对误差 (Mean Absolute Error)

一种评估模型预测准确性的指标，表示预测值与真实值之间的平均差异。

用于评估PRIMO R1在推理基线上的性能。

开放问题这项研究留下的未解疑问

1 虽然PRIMO R1在许多任务中表现出色，但其在处理极端复杂的场景时可能会遇到挑战。这些场景可能需要更高的计算资源和更复杂的模型架构，如何在不增加计算成本的情况下提高模型的复杂场景处理能力是一个开放问题。
2 PRIMO R1在某些特定领域外的应用可能需要进一步的微调，以适应不同的任务需求和环境变化。如何在不进行大量微调的情况下实现更广泛的领域适应性仍然是一个挑战。
3 尽管PRIMO R1在故障检测任务中表现出色，但在实时应用中的计算成本仍然是一个需要解决的问题。如何在不牺牲性能的情况下降低计算成本是未来研究的重要方向。
4 PRIMO R1的零样本泛化能力在不同场景中的表现如何，以及如何进一步提升这种能力，是一个值得探索的研究方向。
5 如何将PRIMO R1的技术应用于更多的实际场景，并验证其在不同领域中的适应性和性能，是一个需要进一步研究的问题。

应用场景

近期应用

工业自动化

PRIMO R1可以用于工业自动化中的过程监督和故障检测，提高生产线的效率和准确性。

智能制造

在智能制造中，PRIMO R1能够通过主动评估任务进展，优化生产流程，减少错误率。

机器人辅助医疗

PRIMO R1可以用于机器人辅助医疗中的手术过程监督，确保手术的精确性和安全性。

远期愿景

智能家居

PRIMO R1可以用于智能家居中的机器人助手，提供更智能的家务管理和安全监控。

自主驾驶

在自主驾驶中，PRIMO R1能够通过主动评估驾驶环境，提高自动驾驶系统的安全性和可靠性。

原文摘要

Accurate process supervision remains a critical challenge for long-horizon robotic manipulation. A primary bottleneck is that current video MLLMs, trained primarily under a Supervised Fine-Tuning (SFT) paradigm, function as passive "Observers" that recognize ongoing events rather than evaluating the current state relative to the final task goal. In this paper, we introduce PRIMO R1 (Process Reasoning Induced Monitoring), a 7B framework that transforms video MLLMs into active "Critics". We leverage outcome-based Reinforcement Learning to incentivize explicit Chain-of-Thought generation for progress estimation. Furthermore, our architecture constructs a structured temporal input by explicitly anchoring the video sequence between initial and current state images. Supported by the proposed PRIMO Dataset and Benchmark, extensive experiments across diverse in-domain environments and out-of-domain real-world humanoid scenarios demonstrate that PRIMO R1 achieves state-of-the-art performance. Quantitatively, our 7B model achieves a 50% reduction in the mean absolute error of specialized reasoning baselines, demonstrating significant relative accuracy improvements over 72B-scale general MLLMs. Furthermore, PRIMO R1 exhibits strong zero-shot generalization on difficult failure detection tasks. We establish state-of-the-art performance on RoboFail benchmark with 67.0% accuracy, surpassing closed-source models like OpenAI o1 by 6.0%.

cs.RO cs.AI cs.CL cs.CV

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

强化学习 (Reinforcement Learning)

视频多模态大模型 (Video MLLMs)

思维链 (Chain-of-Thought)

零样本泛化 (Zero-Shot Generalization)

过程推理 (Process Reasoning)

监督微调 (Supervised Fine-Tuning)

RoboFail基准 (RoboFail Benchmark)

主动批评者 (Active Critic)

结构化时间输入 (Structured Temporal Input)

平均绝对误差 (Mean Absolute Error)

开放问题 这项研究留下的未解疑问

应用场景

近期应用

工业自动化

智能制造

机器人辅助医疗

远期愿景

智能家居

自主驾驶

原文摘要

相关论文

Passage-Aware Structural Mapping for RGB-D Visual SLAM

Learning Human-Intention Priors from Large-Scale Human Demonstrations for Robotic Manipulation

Pushing Radar Odometry Beyond the Pavement: Current Capabilities and Challenges

Agent-Centric Visual Reinforcement Learning under Dynamic Perturbations

Computational Design and Co-Robotic Fabrication for Material Reuse in Architecture

Guiding Vector Field Generation via Score-based Diffusion Model

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问