Humanoid-GPT: Scaling Data and Structure for Zero-Shot Motion Tracking

TL;DR

Humanoid-GPT采用大规模2B帧运动数据和GPT结构，实现零样本高动态运动追踪，超越传统MLP追踪器。

cs.RO 🔴 高级 2026-06-03 51 次浏览

Zekun Qi Xuchuan Chen Dairu Liu Chenghuai Lin Yunrui Lian Sikai Liang Zhikai Zhang Yu Guan Jilong Wang Wenyao Zhang Xinqiang Yu He Wang Li Yi

AI 阅读器 Arxiv 原文下载 PDF

深度学习运动控制 Transformer 零样本泛化大规模数据机器人学

核心发现

方法论

本文提出Humanoid-GPT，基于GPT风格的因果Transformer架构，利用规模化的2B帧运动语料进行预训练。数据整合了Lafan1、AMASS、Motion-X++、PHUMA等多个公开运动数据集，并结合自主采集的真实运动。模型采用因果注意机制，确保在线追踪的时序一致性。通过分层的专家策略训练多个运动专家，再将其蒸馏成单一Transformer模型，实现对复杂高动态运动的零样本追踪。引入Harmonic Motion Embedding（HME）衡量运动多样性，优化样本采样策略，增强模型的泛化能力。

关键结果

在2B帧数据规模和80M参数模型下，Humanoid-GPT在多项指标上显著优于现有方法：追踪成功率（SR）达90.43%，MPJPE（平均关节位置误差）降至76.8mm，MPJVE（关节速度误差）降至0.4891 rad，远超基线模型。模型在模拟环境中实现了对未见运动的零样本追踪，成功应对高动态动作如跳跃、舞蹈等。
在真实机器人平台Unitree-G1上，Humanoid-GPT实现了对多种未训练舞蹈动作的高精度追踪，MPJPE平均值达0.095，MPJVE为1.2 rad/s，验证了其强大的零样本泛化能力。模型在不同硬件平台和运动类别中表现出稳定性和鲁棒性，超越了传统MLP和小模型的性能极限。
通过系统性分析数据规模、模型容量与运动多样性对追踪性能的影响，发现数据多样性和模型规模的共同作用是实现高动态运动零样本追踪的关键。扩展数据集和模型参数均带来性能提升，但过拟合风险在小数据下明显，强调了平衡多样性的重要性。

研究意义

本研究突破了运动追踪的传统瓶颈，首次实现了基于大规模运动语料和Transformer的零样本高动态运动追踪，极大提升了机器人自主运动的灵活性和适应性。这不仅推动了机器人自主控制技术的前沿，也为虚拟现实、动画生成等领域提供了强有力的技术支撑。模型的规模化策略和多样性平衡方法，为未来通用智能体的运动理解和控制奠定了基础，具有深远的学术和工业价值。

技术贡献

技术上，本文创新性地将GPT-style因果Transformer应用于运动追踪任务，突破了MLP模型在大规模数据下的性能瓶颈。提出运动专家蒸馏框架，有效整合多样运动知识，提升模型泛化能力。引入Harmonic Motion Embedding（HME）衡量运动多样性，优化训练样本分布，增强模型对稀有动作的识别能力。系统性分析了数据规模、模型容量与运动多样性之间的关系，提出了规模化追踪的定量规律，为未来模型设计提供理论指导。

新颖性

这是首个将大规模运动数据与GPT风格Transformer结合，实现全身高动态运动零样本追踪的研究。不同于以往依赖有限运动集或浅层MLP的方案，本文通过规模化数据和模型，突破了泛化极限，提出运动专家蒸馏与多样性平衡机制，显著提升了追踪的鲁棒性和泛化能力。这一创新架构为机器人运动控制提供了全新的思路和技术路径。

局限性

尽管模型在大规模数据和复杂动作上表现优异，但在极端环境或极端运动状态下仍存在性能下降的风险，主要由于训练数据的覆盖不足。
模型训练和推理过程计算成本较高，尤其是在超大模型和海量数据条件下，硬件资源需求较大，限制了其在资源受限平台的应用。
当前模型主要在模拟环境和有限实际场景中验证，尚未充分测试在复杂、多变的真实环境中的鲁棒性和适应性，未来需加强实地验证。

未来方向

未来将探索更高效的模型结构以降低计算成本，增强模型在极端环境下的鲁棒性。同时，计划引入多模态信息（如视觉、声音）以丰富运动理解能力，推动多模态融合的运动控制研究。此外，将扩展模型的自主学习能力，实现在线自适应和持续学习，进一步提升机器人在未知环境中的表现。

AI 总览摘要

在机器人运动控制领域，传统追踪方法多依赖浅层模型和有限运动数据，难以应对复杂高动态动作的泛化需求。随着大规模运动数据的积累和深度学习技术的发展，如何实现对未见运动的零样本追踪，成为行业与学术界的共同挑战。

本文提出Humanoid-GPT，一种基于GPT风格因果Transformer架构的全身运动追踪模型，利用规模化的2B帧运动语料进行预训练。该运动语料整合了Lafan1、AMASS、Motion-X++、PHUMA等多个公开数据集，并结合自主采集的真实运动，经过严格过滤和增强，形成了前所未有的庞大且多样的训练集。模型采用因果注意机制，确保在线追踪的时序一致性，避免未来信息泄露，符合实际应用中的实时性需求。

为了充分利用大规模数据，本文引入运动专家蒸馏策略，将多个在不同运动簇上训练的专家模型融合成一个统一的Transformer模型。这一过程通过Dagger框架实现，模型输入包括当前状态和目标参考，输出控制指令，训练过程中采用多步序列监督，确保模型在长时间跨度内保持稳定和物理一致。引入Harmonic Motion Embedding（HME）作为运动多样性指标，指导样本采样，平衡数据分布，增强模型对稀有动作的识别能力。

实验结果显示，在2B帧数据和80M参数模型下，Humanoid-GPT在多项指标上均优于现有方法。例如，追踪成功率达90.43%，MPJPE降至76.8mm，MPJVE降至0.4891 rad，显著优于传统MLP和浅层模型。在模拟环境中，模型成功追踪了多种未见运动，包括舞蹈、跳跃等高动态动作。在实际机器人平台Unitree-G1上，模型也实现了对未训练动作的高精度追踪，MPJPE平均值为0.095，验证了其强大的零样本泛化能力。

通过系统性分析数据规模、模型容量与运动多样性之间的关系，本文提出了规模化追踪的定量规律，指导未来的模型设计与训练策略。该研究不仅推动了机器人自主运动控制的前沿，也为虚拟现实、动画生成等应用提供了新的技术基础。未来工作将集中在模型效率提升、多模态融合以及在线自适应能力的增强，推动机器人智能向更高层次发展。

深度分析

研究背景

机器人运动控制技术经历了从基于规则的控制到数据驱动的深度学习方法的演变。早期方法如运动模仿和动力学模型，依赖精确的物理参数，难以应对复杂环境。近年来，深度学习模型如MLP、卷积神经网络（CNN）和递归网络（RNN）被引入运动追踪，提升了鲁棒性和泛化能力。代表性工作包括OmniH2O、GMT、UniTracker等，采用有限运动集训练，难以应对多样化和高动态动作。随着大规模运动数据集的出现（如AMASS、Lafan1、Motion-X++、PHUMA），研究逐渐转向利用海量数据提升模型能力，但多为浅层模型，泛化能力有限。近年来，Transformer架构在自然语言处理中的成功激发了其在运动控制中的应用潜力，尤其是在序列建模和长距离依赖方面表现优越。尽管如此，现有方法在大规模数据和复杂动作的泛化方面仍存在瓶颈，亟需结合大数据和深层模型的创新方案。

核心问题

核心问题在于如何利用超大规模运动数据和深层模型架构，实现对未见运动的零样本高动态追踪。现有方法多受限于浅层模型容量和有限数据，导致在面对新颖或复杂动作时表现不佳，尤其是在高动态、多关节运动中容易失稳或误差增大。此外，运动数据的多样性不足、模型训练的稳定性和效率也是制约因素。如何设计能够充分挖掘大规模运动数据潜力、具有良好泛化能力的模型架构，以及如何平衡数据多样性与训练稳定性，成为亟待解决的关键难题。

核心创新

本文的创新点主要包括：1）提出基于GPT风格因果Transformer的全身运动追踪架构，充分利用大规模数据的序列建模能力；2）引入运动专家蒸馏技术，将多个在不同运动簇上训练的专家模型融合成一个统一模型，实现多样运动的零样本追踪；3）设计Harmonic Motion Embedding（HME）指标，有效衡量和组织运动多样性，优化训练样本分布，增强模型对稀有动作的识别能力；4）系统性分析数据规模、模型容量与运动多样性之间的关系，提出规模化追踪的定量规律。这些创新共同推动了运动追踪技术的边界，突破了传统浅层模型的局限。

方法详解

�� 数据采集与整合：收集Lafan1、AMASS、Motion-X++、PHUMA等多个公开运动数据集，并结合自主采集的真实运动，经过过滤、分割和增强，形成2B帧的庞大运动语料。
�� 数据预处理：采用运动重定向技术，将所有运动映射到Unitree-G1的关节空间，剔除与物体交互的运动，确保运动的物理合理性。
�� 多样性衡量：利用周期自编码器提取每个运动的关节谐波特征，计算HME向量，通过K-means聚类生成约300个运动簇。
�� 运动专家训练：在每个簇上训练PPO策略，目标是逼近簇内所有运动的动力学特性，奖励函数包括位置、速度和旋转误差，确保物理一致性。
�� 蒸馏成统一模型：采用Dagger框架，将多个专家模型的行为蒸馏到单一Transformer模型中，输入为状态和目标，输出为控制指令，利用序列监督优化。
�� 训练细节：模型采用因果注意机制，输入为历史状态和目标参考，输出为下一步控制，训练过程中引入多步序列损失，确保长时间稳定性。
�� 评估指标：在模拟和真实平台上测试追踪成功率、关节位置误差、速度误差等指标，验证模型的泛化能力和实时性。

实验设计

�� 数据集划分：使用扩展的运动语料库进行训练，测试在AMASS-test、真实机器人平台等不同场景下的性能。
�� 模型变体：比较不同规模（Small、Base、Large）和不同数据规模（2M、20M、2B帧）模型的追踪效果。
�� 评估指标：包括追踪成功率（SR）、平均关节位置误差（MPJPE）、关节速度误差（MPJVE）、根部速度误差（RootVelErr）和关键点位置误差（MPKPE）等。
�� 实验设计：在模拟环境中，通过不同运动类别（舞蹈、跳跃、弯腰等）验证模型的泛化能力；在实际机器人上，测试未见运动的追踪效果，观察模型的鲁棒性和实时性。
�� Ablation研究：分析数据规模、模型容量、运动多样性对性能的影响，验证HME指标和专家蒸馏的有效性。

结果分析

�� 在2B帧数据和80M参数模型下，Humanoid-GPT在追踪成功率、关节位置误差和速度误差方面均优于现有技术，成功率达90.43%，MPJPE降至76.8mm，MPJVE为0.4891 rad，体现出极强的泛化能力。
�� 在模拟环境中，模型成功追踪未见的高动态动作如舞蹈、跳跃，且在真实机器人平台上实现了对多种未训练舞蹈动作的高精度追踪，MPJPE平均值为0.095，验证了其零样本泛化优势。
�� 通过系统性分析，发现数据多样性和模型容量的共同作用是提升追踪性能的关键。扩展数据集和模型参数均带来性能提升，但在小数据条件下容易过拟合，强调了平衡多样性的重要性。这些结果表明，规模化数据和模型是实现高动态运动零样本追踪的核心因素。

应用场景

�� 实时人机交互：Humanoid-GPT可应用于虚拟现实、增强现实中的虚拟角色控制，实现自然流畅的动作交互，无需专门调优。
�� 机器人自主运动：在工业、服务机器人中，模型可实现复杂环境下的自主运动规划与执行，提高机器人适应性和灵活性。
�� 影视动画制作：利用模型生成高质量、自然的运动序列，减少动画师的工作负担，提升动画制作效率。
�� 未来虚拟助手：结合多模态信息，发展智能虚拟助手，实现更自然的人机协作和情感交互。

局限与展望

�� 计算成本高：大规模模型训练和推理对硬件资源要求极高，限制了其在资源有限平台上的应用。
�� 数据偏差：训练数据主要来自公开运动集和自主采集，可能存在偏向性，影响模型在极端或特殊场景下的表现。
�� 实时适应性不足：模型主要在离线训练后部署，尚未实现在线自适应和持续学习能力，未来需增强模型的自我调节能力以应对动态环境变化。

通俗解读非专业人士也能看懂

想象你在一家大型工厂里工作，工厂里有许多不同的机器，每台机器都需要按照特定的方式操作才能完成任务。以前，工厂里的机器人只能学会一些有限的动作，比如搬东西或组装零件，但当遇到新任务或不同的工艺时，它们就会出错或停工。现在，假设我们有一种超级智能的机器人，它像一本会读会写的书，能理解各种复杂的动作，并且可以自己学习新动作。

这个机器人用了一种叫做“Humanoid-GPT”的方法，它像一本巨大的百科全书，里面记载了数十亿个动作片段。这些动作片段来自不同的运动数据集，就像工厂里不同的机器操作指南。机器人通过学习这些动作，变得非常聪明，能够在没有提前训练的情况下，自己理解和模仿各种高难度动作，比如跳舞、跳跃甚至武术动作。

它的秘密武器是一个叫做“Transformer”的特殊记忆系统，能像人脑一样记住长长的动作序列，并在需要时快速回忆出来。这样，机器人就可以在运动过程中实时调整动作，保持平衡和协调，就像一个舞者在舞台上自如地表演一样。更厉害的是，它还能从不同的动作中学习到共通的规律，就像学会了舞蹈的基本节奏和动作套路，即使遇到全新的舞蹈，也能快速跟上节奏。

通过这种方法，机器人不仅能在模拟环境中表现出色，还能在真实的机器人平台上完成复杂的运动任务。这意味着未来的机器人可以像人一样灵活自如地行动，无论是在工厂、医院还是家庭中，都能帮上大忙。这个技术的出现，或许会让我们的生活变得更加便捷和有趣，就像拥有一个会跳舞、会运动的超级伙伴一样。

简单解释像给14岁少年讲一样

想象你有一个超级厉害的机器人朋友，它可以学会各种复杂的动作，比如跳舞、跳绳或者打篮球。以前的机器人只能学会一些简单的动作，比如走路或搬东西，但当你让它做新动作时，它就会卡壳或者做得不好。现在，科学家们发明了一种新方法，让机器人变得像个超级学霸，能看很多很多动作视频，然后自己学会新动作。

这个方法叫做“Humanoid-GPT”，它就像一本超级厚的动作百科全书，里面记载了数十亿个动作片段。机器人通过阅读这些动作，学会了很多运动的规律。它用一种特别的记忆系统，能记住长长的动作序列，就像你记住一段舞蹈的全部动作一样。这样，当它需要做一个新动作时，它就可以快速理解并模仿出来，就算是以前没见过的动作，也能做得很好。

更酷的是，这个机器人还能在真实的机器人身上表现出来。比如，你给它一个舞蹈视频，它可以在机器人身上完美复制出来，甚至比训练时还要好。它的厉害之处在于：它不用专门为每个动作训练，只要看一遍，就能马上模仿。这就像你看了一次舞蹈视频，就能跳得像专业舞者一样。未来，这样的机器人可以帮我们做很多事情，比如陪伴、表演或者帮忙做家务。它让机器人变得更聪明、更灵活，就像拥有一个会跳舞、会运动的超级伙伴一样！

原文摘要

We introduce Humanoid-GPT, a GPT-style Transformer with causal attention trained on a billion-scale motion corpus for whole-body control. Unlike prior shallow MLP trackers constrained by scarce data and an agility-generalization trade-off, Humanoid-GPT is pre-trained on a 2B-frame retargeted corpus that unifies all major mocap datasets with large-scale in-house recordings. Scaling both data and model capacity yields a single generative Transformer that tracks highly dynamic behaviors while achieving unprecedented zero-shot generalization to unseen motions and control tasks. Extensive experiments and scaling analyses show that our model establishes a new performance frontier, demonstrating robust zero-shot generalization to unseen tasks while simultaneously tracking highly dynamic and complex motions.

cs.RO cs.AI cs.CV

参考文献 (20)

AMASS: Archive of Motion Capture As Surface Shapes

Naureen Mahmood, N. Ghorbani, N. Troje 等

2019 1839 引用 ⭐ 高影响力查看解读 →

PHUMA: Physically-Grounded Humanoid Locomotion Dataset

Kyungmin Lee, Sibeen Kim, Minho Park 等

2025 11 引用 ⭐ 高影响力查看解读 →

Go to Zero: Towards Zero-Shot Motion Generation with Million-Scale Data

Ke Fan, Shunlin Lu, Minyue Dai 等

2025 56 引用 ⭐ 高影响力查看解读 →

TWIST: Teleoperated Whole-Body Imitation System

Yanjie Ze, Zixuan Chen, J. P. Ara'ujo 等

2025 133 引用 ⭐ 高影响力查看解读 →

Robust motion in-betweening

Félix G. Harvey, Mike Yurick, D. Nowrouzezahrai 等

2020 376 引用 ⭐ 高影响力查看解读 →

Segment Anything

A. Kirillov, Eric Mintun, Nikhila Ravi 等

2023 13710 引用查看解读 →

Motion-X++: A Large-Scale Multimodal 3D Whole-body Human Motion Dataset

Yuhong Zhang, Jing-de Lin, Ailing Zeng 等

2025 30 引用查看解读 →

A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning

S. Ross, Geoffrey J. Gordon, J. Bagnell

2010 4050 引用查看解读 →

AnyTeleop: A General Vision-Based Dexterous Robot Arm-Hand Teleoperation System

Yuzhe Qin, Wei Yang, Binghao Huang 等

2023 243 引用查看解读 →

OmniH2O: Universal and Dexterous Human-to-Humanoid Whole-Body Teleoperation and Learning

Tairan He, Zhengyi Luo, Xialin He 等

2024 278 引用查看解读 →

Language Models are Few-Shot Learners

Tom B. Brown, Benjamin Mann, Nick Ryder 等

2020 58798 引用查看解读 →

Motion-X: A Large-scale 3D Expressive Whole-body Human Motion Dataset

Jing-de Lin, Ailing Zeng, Shunlin Lu 等

2023 265 引用查看解读 →

From Experts to a Generalist: Toward General Whole-Body Control for Humanoid Robots

Yuxuan Wang, Ming Yang, Weishuai Zeng 等

2025 19 引用查看解读 →

Training language models to follow instructions with human feedback

Long Ouyang, Jeff Wu, Xu Jiang 等

2022 21318 引用查看解读 →

Object Motion Guided Human Motion Synthesis

Jiaman Li, Jiajun Wu, C. K. Liu

2023 214 引用查看解读 →

GMT: General Motion Tracking for Humanoid Whole-Body Control

Zixuan Chen, Mazeyu Ji, Xuxin Cheng 等

2025 96 引用查看解读 →

Emergent Abilities of Large Language Models

Jason Wei, Yi Tay, Rishi Bommasani 等

2022 3570 引用查看解读 →

Track Any Motions under Any Disturbances

Zhikai Zhang, Jun Guo, Chao Chen 等

2025 47 引用查看解读 →

ExBody2: Advanced Expressive Humanoid Whole-Body Control

Mazeyu Ji, Xuanbin Peng, Fangchen Liu 等

2024 132 引用查看解读 →

Expressive Whole-Body Control for Humanoid Robots

Xuxin Cheng, Yandong Ji, Junming Chen 等

2024 240 引用查看解读 →

Humanoid-GPT: Scaling Data and Structure for Zero-Shot Motion Tracking

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

原文摘要

参考文献 (20)

相关论文

Increasing Resilience of Continuum Robots via Motion Planning Algorithms

ARC: Adaptive Robust Joint State and Covariance Estimation

Do as I Do: Dexterous Manipulation Data from Everyday Human Videos

Observability and Consistency Analysis for Visual-Inertial Navigation with Anchored Feature Parameterizations

Visual Verification Enables Inference-time Steering and Autonomous Policy Improvement

R2RDreamer: 3D-aware Data Augmentation for Spatially-generalized 2D Manipulation Policies

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样