$Ψ_0$: An Open Foundation Model Towards Universal Humanoid Loco-Manipulation

TL;DR

$Ψ_0$模型通过分阶段训练实现了40%的性能提升,仅需800小时人类视频和30小时机器人数据。

cs.RO 🔴 高级 2026-03-13 12 次浏览
Songlin Wei Hongyi Jing Boqian Li Zhenyu Zhao Jiageng Mao Zhenhao Ni Sicheng He Jie Liu Xiawei Liu Kaidi Kang Sheng Zang Weiduo Yuan Marco Pavone Di Huang Yue Wang
人形机器人 动作控制 视觉语言模型 数据效率 机器人学习

核心发现

方法论

本文提出了一种名为$Ψ_0$的基础模型,旨在解决人形机器人的复杂运动操控任务。该模型通过分阶段训练策略,首先在大规模自我视角人类视频上预训练视觉语言模型(VLM),然后在高质量人形机器人数据上后训练流式动作专家。此方法利用异构数据源的最大效用,避免了直接从人类视频到机器人控制的困难。

关键结果

  • 通过800小时的人类视频和30小时的机器人数据,$Ψ_0$模型在多个任务中成功率提高了40%,相比于使用10倍数据的基线模型。
  • 实验结果表明,$Ψ_0$在复杂的长时间任务中表现优异,尤其是在涉及全身运动和精细操控的任务中。
  • 消融研究显示,分阶段训练策略在提高模型泛化能力和数据效率方面起到了关键作用。

研究意义

该研究为人形机器人在复杂环境中的运动操控提供了新的解决方案,突破了以往方法在数据效率和模型性能上的瓶颈。通过引入分阶段训练策略,$Ψ_0$模型不仅提高了任务成功率,还显著减少了所需的数据量。这一进展为机器人在实际应用中的部署提供了更高的可行性。

技术贡献

技术贡献包括提出了一种新的分阶段训练框架,结合视觉语言模型和流式动作专家,显著提高了人形机器人的操控能力。此外,研究还展示了在高质量自我视角人类视频上进行预训练的重要性,为未来的机器人学习提供了新的视角。

新颖性

本文的创新之处在于首次将分阶段训练策略应用于人形机器人操控任务中,通过在自我视角人类视频上预训练VLM,再在机器人数据上后训练动作专家,显著提高了模型的泛化能力和数据效率。

局限性

  • 模型在处理极端复杂的操控任务时仍存在一定的局限性,可能需要更多的特定任务数据进行微调。
  • 在某些需要高精度的任务中,模型可能会出现动作抖动的问题。
  • 虽然模型在多个任务中表现优异,但在某些特定环境下的适应性仍需进一步验证。

未来方向

未来的研究方向包括探索更多样化的任务场景,进一步提高模型的泛化能力和鲁棒性。此外,研究还可以扩展到其他类型的机器人,以验证该方法的普适性。

AI 总览摘要

人形机器人的运动操控一直是机器人研究中的一大挑战,现有的方法通常依赖于大规模的数据训练,但在数据效率和模型性能上仍存在瓶颈。

$Ψ_0$模型通过引入分阶段训练策略,首先在大规模自我视角人类视频上预训练视觉语言模型(VLM),然后在高质量人形机器人数据上后训练流式动作专家。这种方法有效利用了异构数据源,避免了直接从人类视频到机器人控制的困难。

实验结果表明,$Ψ_0$模型在多个复杂任务中表现优异,尤其是在涉及全身运动和精细操控的任务中。通过800小时的人类视频和30小时的机器人数据,模型成功率提高了40%,显著优于使用10倍数据的基线模型。

这一研究为人形机器人在复杂环境中的运动操控提供了新的解决方案,突破了以往方法在数据效率和模型性能上的瓶颈。通过引入分阶段训练策略,$Ψ_0$模型不仅提高了任务成功率,还显著减少了所需的数据量。

然而,模型在处理极端复杂的操控任务时仍存在一定的局限性,可能需要更多的特定任务数据进行微调。未来的研究方向包括探索更多样化的任务场景,进一步提高模型的泛化能力和鲁棒性。

深度分析

研究背景

人形机器人的研究一直以来都受到广泛关注,其在全身运动控制方面取得了显著进展。然而,复杂的操控能力仍然是一个未解决的挑战。近年来,随着大规模语言模型的进步,研究人员开始探索适用于具身智能体的扩展法则。尽管早期的研究表明大模型可以显著提高机器人操控的泛化能力,但这些方法往往依赖于大规模的遥操作数据,这在成本和获取上都存在困难。人类自我视角视频提供了一种可扩展的替代方案,但由于人类与机器人的具身差距,直接从人类视频中转移知识并不容易。

核心问题

人形机器人在复杂环境中的运动操控能力不足,现有方法在数据效率和模型性能上存在瓶颈。由于人类与机器人的运动学和动态差异,直接从人类视频中学习对机器人控制来说是次优的。如何有效利用异构数据源,提高模型的泛化能力和数据效率,成为亟待解决的问题。

核心创新

本文提出了一种新的分阶段训练框架,结合视觉语言模型和流式动作专家,显著提高了人形机器人的操控能力。首先在大规模自我视角人类视频上预训练VLM,获取可泛化的视觉动作表示。然后在高质量人形机器人数据上后训练动作专家,学习精确的机器人关节控制。这种方法不仅提高了任务成功率,还显著减少了所需的数据量。

方法详解

  • �� 首先在大规模自我视角人类视频上预训练视觉语言模型(VLM),以获取可泛化的视觉动作表示。

  • �� 然后在高质量人形机器人数据上后训练流式动作专家,学习精确的机器人关节控制。

  • �� 采用多模态扩散变换器(MM-DiT)实现动作专家,结合视觉语言特征高效输出关节空间动作块。

  • �� 在训练时引入实时动作分块机制,缓解模型推理延迟导致的动作抖动。

实验设计

实验设计包括在多个复杂任务中测试$Ψ_0$模型的性能。使用EgoDex数据集进行预训练,包含约829小时的人类自我视角视频。后训练阶段使用Humanoid Everyday数据集,包含约3百万帧的真实世界遥操作数据。实验还包括消融研究,以验证分阶段训练策略在提高模型泛化能力和数据效率方面的作用。

结果分析

实验结果表明,$Ψ_0$模型在多个复杂任务中表现优异,尤其是在涉及全身运动和精细操控的任务中。通过800小时的人类视频和30小时的机器人数据,模型成功率提高了40%,显著优于使用10倍数据的基线模型。消融研究显示,分阶段训练策略在提高模型泛化能力和数据效率方面起到了关键作用。

应用场景

该模型可直接应用于人形机器人的复杂运动操控任务,如工业自动化、家庭服务机器人等。通过提高数据效率和模型性能,$Ψ_0$模型为机器人在实际应用中的部署提供了更高的可行性。

局限与展望

尽管$Ψ_0$模型在多个任务中表现优异,但在处理极端复杂的操控任务时仍存在一定的局限性,可能需要更多的特定任务数据进行微调。此外,模型在某些需要高精度的任务中可能会出现动作抖动的问题。未来的研究方向包括探索更多样化的任务场景,进一步提高模型的泛化能力和鲁棒性。

通俗解读 非专业人士也能看懂

想象你在厨房里做饭。你需要从冰箱里拿出食材,切菜,炒菜,最后把饭菜端上桌。这个过程就像是一个机器人完成一系列复杂的任务。$Ψ_0$模型就像是一个聪明的助手,它先通过观察你做饭的视频学习如何切菜、炒菜,然后再通过模拟练习来掌握如何在厨房里灵活移动。这样,它就能在实际操作中表现得像一个经验丰富的厨师。这个模型的特别之处在于,它不仅能学会做饭,还能在不同的厨房环境中灵活应对,就像一个能适应各种情况的全能大厨。

简单解释 像给14岁少年讲一样

嘿,小伙伴们!想象一下你在玩一个超级酷的机器人游戏。你需要控制一个机器人,让它在房间里完成各种任务,比如拿杯子、推车、擦桌子等等。$Ψ_0$模型就像是游戏里的一个超级智能助手。它先通过看很多人类的视频来学习这些动作,然后再通过在虚拟世界中练习来提高自己的技能。这样,当你在游戏中需要它帮忙时,它就能像个高手一样完成任务啦!是不是很酷?而且,它只需要看800小时的视频和30小时的机器人练习,就能比其他需要更多时间的助手表现得更好哦!

术语表

视觉语言模型 (VLM)

视觉语言模型是一种结合视觉和语言信息的深度学习模型,能够理解和生成多模态数据。

在本文中,VLM用于从人类视频中学习视觉动作表示。

流式动作专家

流式动作专家是一种基于流模型的动作预测器,能够在机器人数据上学习精确的关节控制。

在本文中,流式动作专家用于后训练阶段的机器人数据学习。

自我视角视频

自我视角视频是指从第一人称视角拍摄的视频,通常用于捕捉自然的动作模式和行为信息。

在本文中,自我视角视频用于预训练VLM。

多模态扩散变换器 (MM-DiT)

多模态扩散变换器是一种结合多模态信息的深度学习模型,能够高效输出动作预测。

在本文中,MM-DiT用于实现流式动作专家。

动作分块机制

动作分块机制是一种在训练时引入的技术,用于缓解模型推理延迟导致的动作抖动。

在本文中,动作分块机制用于提高模型的实时性。

EgoDex数据集

EgoDex数据集是一个包含大量人类自我视角视频的数据集,用于训练视觉语言模型。

在本文中,EgoDex数据集用于VLM的预训练。

Humanoid Everyday数据集

Humanoid Everyday数据集是一个包含真实世界遥操作数据的数据集,用于后训练阶段。

在本文中,Humanoid Everyday数据集用于流式动作专家的训练。

消融研究

消融研究是一种通过移除或修改模型组件来评估其对整体性能影响的方法。

在本文中,消融研究用于验证分阶段训练策略的有效性。

具身智能体

具身智能体是指具有物理实体的智能体,能够在物理世界中进行交互和学习。

在本文中,具身智能体指的是人形机器人。

遥操作数据

遥操作数据是指通过远程控制设备获取的机器人操作数据,通常用于训练和评估机器人模型。

在本文中,遥操作数据用于流式动作专家的后训练。

开放问题 这项研究留下的未解疑问

  • 1 虽然$Ψ_0$模型在多个任务中表现优异,但在处理极端复杂的操控任务时仍存在一定的局限性。未来的研究需要探索如何进一步提高模型的泛化能力和鲁棒性。
  • 2 模型在某些需要高精度的任务中可能会出现动作抖动的问题,这表明在高精度任务中的表现仍需改进。
  • 3 尽管分阶段训练策略在提高数据效率方面表现出色,但如何在更大规模的数据集上验证其有效性仍需进一步研究。
  • 4 当前的实验主要集中在室内环境中,如何在更复杂的室外环境中应用该模型仍是一个开放问题。
  • 5 虽然模型在多个任务中表现优异,但在某些特定环境下的适应性仍需进一步验证。
  • 6 如何将该模型扩展到其他类型的机器人,以验证其普适性,仍需进一步研究。
  • 7 在实际应用中,如何有效整合多种传感器数据以提高模型的鲁棒性和精度,仍是一个需要解决的问题。

应用场景

近期应用

工业自动化

该模型可用于工业自动化中的复杂任务,如装配线上的物料搬运和设备操作,提高生产效率。

家庭服务机器人

在家庭环境中,该模型可用于服务机器人,执行如清洁、物品递送等任务,提高生活便利性。

医疗辅助机器人

在医疗领域,该模型可用于辅助机器人,帮助完成如药物递送、病人移动等任务,提高医疗服务质量。

远期愿景

智能城市

在未来的智能城市中,该模型可用于城市管理和服务机器人,提高城市运行效率和居民生活质量。

人机协作

该模型可用于人机协作的复杂任务,如灾后救援、危险环境作业等,提高任务完成的安全性和效率。

原文摘要

We introduce $Ψ_0$ (Psi-Zero), an open foundation model to address challenging humanoid loco-manipulation tasks. While existing approaches often attempt to address this fundamental problem by co-training on large and diverse human and humanoid data, we argue that this strategy is suboptimal due to the fundamental kinematic and motion disparities between humans and humanoid robots. Therefore, data efficiency and model performance remain unsatisfactory despite the considerable data volume. To address this challenge, \ours\;decouples the learning process to maximize the utility of heterogeneous data sources. Specifically, we propose a staged training paradigm with different learning objectives: First, we autoregressively pre-train a VLM backbone on large-scale egocentric human videos to acquire generalizable visual-action representations. Then, we post-train a flow-based action expert on high-quality humanoid robot data to learn precise robot joint control. Our research further identifies a critical yet often overlooked data recipe: in contrast to approaches that scale with noisy Internet clips or heterogeneous cross-embodiment robot datasets, we demonstrate that pre-training on high-quality egocentric human manipulation data followed by post-training on domain-specific real-world humanoid trajectories yields superior performance. Extensive real-world experiments demonstrate that \ours\ achieves the best performance using only about 800 hours of human video data and 30 hours of real-world robot data, outperforming baselines pre-trained on more than 10$\times$ as much data by over 40\% in overall success rate across multiple tasks. We will open-source the entire ecosystem to the community, including a data processing and training pipeline, a humanoid foundation model, and a real-time action inference engine.

cs.RO

参考文献 (20)

GR00T N1: An Open Foundation Model for Generalist Humanoid Robots

Nvidia, Johan Bjorck, Fernando Castañeda 等

2025 542 引用 ⭐ 高影响力 查看解读 →

Qwen3-VL Technical Report

Shuai Bai, Yuxuan Cai, Ruizhe Chen 等

2025 307 引用 ⭐ 高影响力 查看解读 →

Scaling Rectified Flow Transformers for High-Resolution Image Synthesis

Patrick Esser, Sumith Kulal, A. Blattmann 等

2024 3192 引用 ⭐ 高影响力 查看解读 →

π0.5: a Vision-Language-Action Model with Open-World Generalization

Physical Intelligence, Kevin Black, Noah Brown 等

2025 595 引用 ⭐ 高影响力 查看解读 →

Training-Time Action Conditioning for Efficient Real-Time Chunking

Kevin Black, Allen Z. Ren, Michael Equi 等

2025 12 引用 ⭐ 高影响力 查看解读 →

Real-Time Execution of Action Chunking Flow Policies

Kevin Black, Manuel Y. Galliker, Sergey Levine

2025 63 引用 ⭐ 高影响力 查看解读 →

Humanoid Everyday: A Comprehensive Robotic Dataset for Open-World Humanoid Manipulation

Zhenyu Zhao, Hongyi Jing, Xiawei Liu 等

2025 8 引用 ⭐ 高影响力 查看解读 →

AMO: Adaptive Motion Optimization for Hyper-Dexterous Humanoid Whole-Body Control

Jialong Li, Xuxin Cheng, Tianshu Huang 等

2025 66 引用 ⭐ 高影响力 查看解读 →

RT-1: Robotics Transformer for Real-World Control at Scale

Anthony Brohan, Noah Brown, Justice Carbajal 等

2022 1941 引用 查看解读 →

EgoMimic: Scaling Imitation Learning via Egocentric Video

Simar Kareer, Dhruv Patel, Ryan Punamiya 等

2024 119 引用 查看解读 →

Expressive Whole-Body Control for Humanoid Robots

Xuxin Cheng, Yandong Ji, Junming Chen 等

2024 213 引用 查看解读 →

In-N-On: Scaling Egocentric Manipulation with in-the-wild and on-task Data

Xiongyi Cai, Ri-Zhao Qiu, Geng Chen 等

2025 5 引用 查看解读 →

EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video

Ryan Hoque, Peide Huang, David J. Yoon 等

2025 71 引用 查看解读 →

Bidirectional Decoding: Improving Action Chunking via Closed-Loop Resampling

Yuejiang Liu, Jubayer Ibn Hamid, Annie Xie 等

2024 24 引用

H-RDT: Human Manipulation Enhanced Bimanual Robotic Manipulation

Hongzhe Bi, Lingxuan Wu, Tianwei Lin 等

2025 18 引用 查看解读 →

Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware

Tony Zhao, Vikash Kumar, S. Levine 等

2023 1404 引用 查看解读 →

OpenVLA: An Open-Source Vision-Language-Action Model

Moo Jin Kim, Karl Pertsch, Siddharth Karamcheti 等

2024 1740 引用 查看解读 →

Visual Imitation Enables Contextual Humanoid Control

Arthur Allshire, Hongsuk Choi, Junyi Zhang 等

2025 67 引用 查看解读 →

Being-H0: Vision-Language-Action Pretraining from Large-Scale Human Videos

Hao Luo, Yicheng Feng, Wanpeng Zhang 等

2025 42 引用 查看解读 →

π0: A Vision-Language-Action Flow Model for General Robot Control

Kevin Black, Noah Brown, Danny Driess 等

2024 1261 引用 查看解读 →