Mask World Model: Predicting What Matters for Robust Robot Policy Learning

TL;DR

Mask World Model通过预测语义掩码而非像素,提升机器人策略学习的鲁棒性,在LIBERO和RLBench中表现优异。

cs.RO 🔴 高级 2026-04-22 39 次浏览
Yunfan Lou Xiaowei Chi Xiaojie Zhang Zezhong Qian Chengxuan Li Rongyu Zhang Yaoxu Lyu Guoyu Song Chuyao Fu Haoxuan Xu Pengwei Wang Shanghang Zhang
机器人 策略学习 语义掩码 视频扩散 鲁棒性

核心发现

方法论

Mask World Model (MWM) 采用视频扩散架构来预测语义掩码的演变,而不是像素。这种方法通过引入几何信息瓶颈,迫使模型捕捉关键的物理动态和接触关系,同时过滤掉视觉噪声。MWM将掩码动态骨干与基于扩散的策略头无缝集成,实现了稳健的端到端控制。训练分为两个阶段:首先通过条件扩散目标学习掩码预测模型,然后训练一个基于掩码的扩散策略头。

关键结果

  • 在LIBERO基准测试中,MWM实现了98.3%的平均成功率,显著优于RGB为基础的世界模型。在RLBench中,MWM的平均成功率为68.3%,同样超过了现有的RGB模型。
  • 在真实世界的实验中,MWM在四个任务中平均成功率达到67.5%,远高于GE-ACT的23.8%和π的38.8%。这些任务包括复杂的目标约束和高敏感度的错误累积场景。
  • 通过随机视觉令牌修剪的鲁棒性评估显示,MWM在处理纹理信息丢失时表现出更强的泛化能力和鲁棒性。

研究意义

该研究通过引入语义掩码预测,显著提升了机器人策略学习的鲁棒性,解决了传统RGB视频预测中由于动态背景和光照变化导致的过拟合问题。MWM在多个基准测试中表现优异,表明其在处理视觉变化和提高决策相关几何信息捕捉方面具有显著优势。这一方法不仅在学术界提供了新的研究方向,也为工业界的机器人控制策略提供了更稳健的解决方案。

技术贡献

技术贡献在于将预测空间从RGB帧转移到语义掩码,提供了一个几何信息瓶颈,保留了对象身份、空间布局和交互相关结构。MWM不需要在推理时使用外部分割模型,仅在训练期间使用语义标签。这种方法在多个基准测试中表现出色,表明其在处理视觉变化和提高决策相关几何信息捕捉方面具有显著优势。

新颖性

MWM首次将视频扩散架构应用于语义掩码预测,而不是传统的RGB视频预测。这一创新通过引入几何信息瓶颈,显著减少了视觉噪声的影响,提高了模型的泛化能力和鲁棒性。

局限性

  • MWM在处理极端光照变化和复杂背景时可能仍然存在一定的局限性,特别是在缺乏足够训练数据的情况下。
  • 该模型在计算资源方面的需求较高,可能不适合资源受限的实时应用场景。
  • 在某些特定任务中,掩码预测的准确性可能不如直接的RGB预测。

未来方向

未来的研究方向包括优化MWM的计算效率,以适应资源受限的应用场景;探索更多的语义掩码生成方法,以提高模型的泛化能力;以及在更多的真实世界任务中验证MWM的有效性。

AI 总览摘要

在机器人策略学习领域,如何在视觉变化的情况下保持可靠性一直是一个核心挑战。传统的方法通常依赖于高保真度的RGB视频预测,但这往往导致对动态背景和光照变化等无关因素的过拟合,进而降低模型的泛化能力。为了解决这一问题,研究人员提出了Mask World Model (MWM),一种利用视频扩散架构预测语义掩码演变的新方法。

MWM通过引入几何信息瓶颈,迫使模型捕捉关键的物理动态和接触关系,同时过滤掉视觉噪声。该方法将掩码动态骨干与基于扩散的策略头无缝集成,实现了稳健的端到端控制。训练过程分为两个阶段:首先通过条件扩散目标学习掩码预测模型,然后训练一个基于掩码的扩散策略头。

在实验中,MWM在LIBERO和RLBench基准测试中表现优异,分别实现了98.3%和68.3%的平均成功率,显著优于现有的RGB为基础的世界模型。此外,在真实世界的实验中,MWM在四个任务中平均成功率达到67.5%,远高于其他基线模型。

这一研究的意义在于通过引入语义掩码预测,显著提升了机器人策略学习的鲁棒性,解决了传统RGB视频预测中由于动态背景和光照变化导致的过拟合问题。MWM在多个基准测试中表现优异,表明其在处理视觉变化和提高决策相关几何信息捕捉方面具有显著优势。

然而,MWM在处理极端光照变化和复杂背景时可能仍然存在一定的局限性,特别是在缺乏足够训练数据的情况下。未来的研究方向包括优化MWM的计算效率,以适应资源受限的应用场景;探索更多的语义掩码生成方法,以提高模型的泛化能力;以及在更多的真实世界任务中验证MWM的有效性。

深度分析

研究背景

在机器人策略学习领域,如何在视觉变化的情况下保持可靠性一直是一个核心挑战。传统的方法通常依赖于高保真度的RGB视频预测,但这往往导致对动态背景和光照变化等无关因素的过拟合,进而降低模型的泛化能力。近年来,随着视频生成预训练技术的发展,基于大规模视频生成预训练的世界模型成为了一种有前途的通用机器人策略学习范式。然而,这些方法大多集中在RGB像素的预测上,这种光度目标与控制任务往往不一致。RGB帧包含大量的干扰变化,包括纹理、光照、反射和动态背景,这些与动作选择的关系较弱。像素预测迫使模型将容量分配给这些因素,并将外观与动态纠缠在一起,将光照或背景的变化视为与接触相关的运动相当。在闭环执行中,这种错误分配变得更加有害:小的外观驱动错误会随着时间的推移而累积,导致预测漂移和在适度分布转变下脆弱的策略。

核心问题

传统的RGB视频预测方法在机器人策略学习中存在过拟合问题,尤其是对动态背景和光照变化等无关因素的过拟合。这导致模型的泛化能力降低,最终导致不可靠和脆弱的控制策略。为了实现稳健的机器人策略学习,迫切需要一种能够有效过滤视觉噪声并捕捉决策相关几何信息的方法。

核心创新

Mask World Model (MWM) 的核心创新在于将预测空间从RGB帧转移到未来的语义掩码。语义掩码引入了一个几何瓶颈,保留了对象身份、空间布局和交互相关结构,同时丢弃了冗余的外观。MWM不需要在推理时使用外部分割模型:语义标签仅在训练期间使用,而部署时仅使用原始多视图RGB。训练管道采用两阶段策略,首先通过条件扩散目标学习掩码预测模型,然后训练一个基于掩码的扩散策略头。

方法详解

  • �� MWM采用视频扩散架构来预测语义掩码的演变,而不是像素。

  • �� 训练分为两个阶段:首先通过条件扩散目标学习掩码预测模型,然后训练一个基于掩码的扩散策略头。

  • �� 掩码动态骨干与基于扩散的策略头无缝集成,实现了稳健的端到端控制。

  • �� 通过引入几何信息瓶颈,迫使模型捕捉关键的物理动态和接触关系,同时过滤掉视觉噪声。

实验设计

实验设计包括在LIBERO和RLBench基准测试中进行评估。LIBERO包含130个模拟操作任务,使用模板化语言指令进行评估。RLBench包含100个桌面操作任务,使用标准化的多视图观察和自然语言目标进行评估。在RLBench中,我们对每个任务运行20次评估实验,使用随机种子和初始化。基线模型包括OpenVLA、CogACT、π、Cosmos+IDM、Cosmos+LatentIDM和GE-ACT。

结果分析

在LIBERO基准测试中,MWM实现了98.3%的平均成功率,显著优于RGB为基础的世界模型。在RLBench中,MWM的平均成功率为68.3%,同样超过了现有的RGB模型。在真实世界的实验中,MWM在四个任务中平均成功率达到67.5%,远高于GE-ACT的23.8%和π的38.8%。通过随机视觉令牌修剪的鲁棒性评估显示,MWM在处理纹理信息丢失时表现出更强的泛化能力和鲁棒性。

应用场景

MWM在机器人策略学习中具有广泛的应用潜力,特别是在需要处理视觉变化和提高决策相关几何信息捕捉的场景中。其应用场景包括自动化制造、无人驾驶车辆、智能家居机器人等领域。MWM的鲁棒性和泛化能力使其适用于各种复杂的真实世界任务。

局限与展望

尽管MWM在多个基准测试中表现优异,但在处理极端光照变化和复杂背景时可能仍然存在一定的局限性,特别是在缺乏足够训练数据的情况下。此外,该模型在计算资源方面的需求较高,可能不适合资源受限的实时应用场景。在某些特定任务中,掩码预测的准确性可能不如直接的RGB预测。未来的研究方向包括优化MWM的计算效率,以适应资源受限的应用场景;探索更多的语义掩码生成方法,以提高模型的泛化能力;以及在更多的真实世界任务中验证MWM的有效性。

通俗解读 非专业人士也能看懂

想象一下你在厨房里做饭。传统的方法就像是用高清摄像机记录下每一个细节,包括墙上的瓷砖颜色和窗外的阳光变化,这些信息虽然丰富,但对你做饭的实际操作并没有帮助。相反,Mask World Model就像是一个聪明的助手,它只关注你手中的食材、锅具和火候,而忽略那些不重要的背景细节。这样一来,你就能更专注于烹饪本身,而不会被无关的信息干扰。通过这种方式,MWM帮助机器人在复杂的视觉环境中做出更好的决策,就像一个经验丰富的厨师能够在任何厨房环境中都能做出美味的菜肴。

简单解释 像给14岁少年讲一样

嘿,小伙伴们!想象一下你在玩一个超级酷的机器人游戏,你的任务是让机器人在各种环境中完成任务,比如搬东西、开门、甚至做饭!但问题来了,游戏里的环境会不断变化,比如灯光变暗、背景变换、或者物体颜色改变。传统的机器人就像是一个只会看表面的小白,它会被这些变化搞得晕头转向。但我们的Mask World Model就不一样啦!它就像是一个聪明的侦探,只关注那些真正重要的线索,比如物体的形状和位置,而忽略那些无关紧要的变化。这样一来,机器人就能在各种环境中都表现得很棒,就像一个超级英雄一样!是不是很酷?

术语表

Mask World Model (掩码世界模型)

一种利用视频扩散架构预测语义掩码演变的模型,通过引入几何信息瓶颈,提升机器人策略学习的鲁棒性。

在论文中,MWM用于替代传统的RGB视频预测方法。

Semantic Mask (语义掩码)

一种用于表示图像中不同对象的几何信息的掩码,保留了对象的身份和空间布局。

MWM通过预测语义掩码来捕捉决策相关的几何信息。

Video Diffusion Architecture (视频扩散架构)

一种用于视频生成和预测的架构,通过扩散过程生成视频帧或掩码。

MWM利用视频扩散架构来预测语义掩码的演变。

LIBERO Benchmark (LIBERO基准测试)

一个包含130个模拟操作任务的基准测试,用于评估机器人策略学习的性能。

MWM在LIBERO基准测试中表现优异,平均成功率达到98.3%。

RLBench Benchmark (RLBench基准测试)

一个包含100个桌面操作任务的基准测试,使用标准化的多视图观察和自然语言目标进行评估。

MWM在RLBench基准测试中的平均成功率为68.3%。

Generalization (泛化能力)

模型在未见过的数据或环境中保持良好性能的能力。

MWM通过引入几何信息瓶颈,显著提高了模型的泛化能力。

Robustness (鲁棒性)

模型在面对输入变化或噪声时仍能保持稳定性能的能力。

MWM在处理纹理信息丢失时表现出更强的鲁棒性。

Diffusion Policy Head (扩散策略头)

一种用于生成动作的策略头,通过扩散过程生成动作序列。

MWM将掩码动态骨干与基于扩散的策略头无缝集成。

Geometric Information Bottleneck (几何信息瓶颈)

一种通过限制信息流来保留决策相关几何信息的机制。

MWM通过引入几何信息瓶颈,过滤掉视觉噪声。

Random Token Pruning (随机令牌修剪)

一种通过随机移除视觉令牌来评估模型鲁棒性的技术。

MWM在随机令牌修剪的鲁棒性评估中表现出色。

开放问题 这项研究留下的未解疑问

  • 1 如何在极端光照变化和复杂背景下进一步提高MWM的鲁棒性?当前的方法在处理这些情况时可能仍然存在一定的局限性,需要探索新的技术来提高模型的适应能力。
  • 2 如何优化MWM的计算效率以适应资源受限的实时应用场景?当前的模型在计算资源方面的需求较高,可能不适合某些实时应用。
  • 3 在缺乏足够训练数据的情况下,如何提高MWM的泛化能力?需要探索新的数据增强或迁移学习方法来解决这一问题。
  • 4 如何在更多的真实世界任务中验证MWM的有效性?需要在不同的应用场景中进行更多的实验来验证模型的鲁棒性和泛化能力。
  • 5 在某些特定任务中,掩码预测的准确性可能不如直接的RGB预测,如何解决这一问题?需要探索新的掩码生成和预测方法。

应用场景

近期应用

自动化制造

MWM可以用于工业机器人在复杂环境中的操作,提高生产线的自动化程度和效率。

无人驾驶车辆

通过提高对视觉变化的适应能力,MWM可以增强无人驾驶车辆在不同环境中的导航能力。

智能家居机器人

MWM可以帮助家居机器人在多变的家庭环境中执行复杂任务,如清洁、搬运物品等。

远期愿景

全自动化工厂

通过集成MWM,未来的工厂可以实现完全自动化的生产过程,减少对人工干预的需求。

智能城市管理

MWM可以用于城市管理中的自动化监控和维护,提高城市基础设施的管理效率。

原文摘要

World models derived from large-scale video generative pre-training have emerged as a promising paradigm for generalist robot policy learning. However, standard approaches often focus on high-fidelity RGB video prediction, this can result in overfitting to irrelevant factors, such as dynamic backgrounds and illumination changes. These distractions reduce the model's ability to generalize, ultimately leading to unreliable and fragile control policies. To address this, we introduce the Mask World Model (MWM), which leverages video diffusion architectures to predict the evolution of semantic masks instead of pixels. This shift imposes a geometric information bottleneck, forcing the model to capture essential physical dynamics and contact relations while filtering out visual noise. We seamlessly integrate this mask dynamics backbone with a diffusion-based policy head to enable robust end-to-end control. Extensive evaluations demonstrate the superiority of MWM on the LIBERO and RLBench simulation benchmarks, significantly outperforming the state-of-the-art RGB-based world models. Furthermore, real-world experiments and robustness evaluation (via random token pruning) reveal that MWM exhibits superior generalization capabilities and robust resilience to texture information loss.

cs.RO

参考文献 (20)

LIBERO: Benchmarking Knowledge Transfer for Lifelong Robot Learning

Bo Liu, Yifeng Zhu, Chongkai Gao 等

2023 737 引用 ⭐ 高影响力 查看解读 →

mimic-video: Video-Action Models for Generalizable Robot Control Beyond VLAs

Jonas Pai, Liam Achenbach, Victoriano Montesinos 等

2025 29 引用 查看解读 →

World Models

David R Ha, J. Schmidhuber

2018 1594 引用 查看解读 →

WoW: Towards a World omniscient World model Through Embodied Interaction

Xiaowei Chi, Peidong Jia, Chunkai Fan 等

2025 29 引用 查看解读 →

MoWM: Mixture-of-World-Models for Embodied Planning via Latent-to-Pixel Feature Modulation

Yu Shang, Yangcheng Yu, Xin Zhang 等

2025 2 引用 查看解读 →

MONet: Unsupervised Scene Decomposition and Representation

Christopher P. Burgess, L. Matthey, Nicholas Watters 等

2019 595 引用 查看解读 →

ReconVLA: Reconstructive Vision-Language-Action Model as Effective Robot Perceiver

Wenxuan Song, Ziyang Zhou, Han Zhao 等

2025 33 引用 查看解读 →

SemanticVLA: Semantic-Aligned Sparsification and Enhancement for Efficient Robotic Manipulation

Wei Li, Renshan Zhang, Rui Shao 等

2025 10 引用 查看解读 →

Arbitrary Style Transfer in Real-Time with Adaptive Instance Normalization

Xun Huang, Serge J. Belongie

2017 5162 引用 查看解读 →

V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning

Mahmoud Assran, Adrien Bardes, David Fan 等

2025 297 引用 查看解读 →

Multi-Object Representation Learning with Iterative Variational Inference

Klaus Greff, Raphael Lopez Kaufman, Rishabh Kabra 等

2019 563 引用 查看解读 →

3D-RPE: Enhancing Long-Context Modeling Through 3D Rotary Position Encoding

Xindian Ma, Wenyuan Liu, Peng Zhang 等

2024 14 引用 查看解读 →

TTF-VLA: Temporal Token Fusion via Pixel-Attention Integration for Vision-Language-Action Models

Chenghao Liu, Jiachen Zhang, Chengxuan Li 等

2025 10 引用 查看解读 →

Masked Autoencoders Are Scalable Vision Learners

Kaiming He, Xinlei Chen, Saining Xie 等

2021 11128 引用 查看解读 →

GENESIS-V2: Inferring Unordered Object Representations without Iterative Refinement

Martin Engelcke, Oiwi Parker Jones, I. Posner

2021 138 引用 查看解读 →

MoLe-VLA: Dynamic Layer-skipping Vision Language Action Model via Mixture-of-Layers for Efficient Robot Manipulation

Rongyu Zhang, Menghang Dong, Yuan Zhang 等

2025 54 引用 查看解读 →

Object-Centric Learning with Slot Attention

Francesco Locatello, Dirk Weissenborn, Thomas Unterthiner 等

2020 1088 引用 查看解读 →

Unified World Models: Coupling Video and Action Diffusion for Pretraining on Large Robotic Datasets

Chuning Zhu, Raymond Yu, Siyuan Feng 等

2025 82 引用 查看解读 →

VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training

Zhan Tong, Yibing Song, Jue Wang 等

2022 1854 引用 查看解读 →

RoboEngine: Plug-and-Play Robot Data Augmentation with Semantic Robot Segmentation and Background Generation

Chengbo Yuan, Suraj Joshi, Shaoting Zhu 等

2025 36 引用 查看解读 →