AnyMo: Geometry-Aware Setup-Agnostic Modeling of Human Motion in the Wild

TL;DR

AnyMo提出基于几何感知的设置无关人体运动建模，零样本识别提升11.7%，跨模态检索MRR提升28.6%。

cs.CV 🔴 高级 2026-05-22 50 次浏览

Baiyu Chen Zechen Li Wilson Wongso Lihuan Li Xiachong Lin Hao Xue Benjamin Tag Flora Salim

人体运动建模惯性测量单元几何感知零样本学习多模态对齐

核心发现

方法论

AnyMo框架通过物理驱动的IMU仿真在Nymeria人体模型的密集体表位置生成多样且合理的合成惯性信号，利用配对的合成视角和部分遮蔽观测进行图卷积编码器的预训练，学习设置无关的运动表示。随后，AnyMo采用基于产品量化的变分自编码器对多位置IMU数据进行全身运动token化，形成紧凑的运动token序列，进而与大语言模型（LLM）对齐，实现运动与语言的理解和生成。该方法结合了掩码交叉视角预测对比学习、图结构时序建模及多任务对比指令微调，支持零样本识别、跨模态检索和运动描述生成等任务。

关键结果

在14个未见下游数据集上的零样本人体活动识别任务中，AnyMo平均准确率提升11.7%，宏F1提升11.6%，Recall@2提升22.6%，显著优于ImageBind、IMU2CLIP等多模态基线。
在IMU-文本和文本-IMU的双向跨模态检索任务中，AnyMo分别提升了15.9%和28.6%的MRR，展示了其运动语言对齐的有效性。
零样本运动描述生成任务中，AnyMo在BERT-F1指标上提升18.8%，表明其生成的自然语言描述更准确且语义丰富。

研究意义

AnyMo解决了惯性测量单元（IMU）信号高度依赖穿戴位置和设备设置的难题，突破了传统模型在跨设备、跨数据集迁移中的局限。通过几何感知的密集体表仿真和设置无关的表征学习，AnyMo实现了对多样化穿戴环境下人体运动的泛化理解，推动了可穿戴设备在真实环境中连续人体运动感知和智能交互的应用前景，促进了运动理解与自然语言处理的跨模态融合。

技术贡献

AnyMo首次提出基于Nymeria人体模型的密集几何感知IMU仿真，结合掩码交叉视角预测对比学习训练图卷积编码器，实现设置无关的运动表示。创新地设计了基于产品量化的全身IMU token化器，将多位置IMU信号映射为紧凑离散token，成功与大语言模型对齐，支持多任务多模态训练。该方法在零样本识别、跨模态检索和运动描述生成等多任务上均展现出领先性能，体现了理论与工程的深度融合。

新颖性

AnyMo是首个将物理驱动的密集体表IMU仿真、设置无关图结构预训练与全身IMU token化结合，并与大语言模型进行多任务对齐的通用人体运动理解框架。相比传统基于单一设备或固定位置的模型，AnyMo通过几何感知和跨视角对比学习显著提升了泛化能力，填补了运动信号与自然语言跨模态理解的空白。

局限性

AnyMo依赖Nymeria人体模型的准确性，模型对极端或非典型人体形态的泛化能力尚未充分验证，可能影响仿真信号的真实性和下游性能。
当前仿真和预训练主要基于有限的设备噪声模型，实际应用中不同硬件和采样协议的多样性可能导致性能波动。
尽管AnyMo支持多位置IMU输入，但在极度稀疏或缺失传感器数据的情况下，模型的识别和生成能力可能下降。

未来方向

未来工作将聚焦于扩展Nymeria模型以覆盖更多人体形态和动态场景，增强仿真多样性和真实感；引入更复杂的设备噪声和采样变异模拟以提升鲁棒性；探索更高效的token化策略和更大规模的运动语言联合预训练，推动模型在更广泛的实际应用中实现实时、准确的人体运动理解与交互。

AI 总览摘要

随着可穿戴设备和移动设备日益融入人们的日常生活，持续感知人体运动成为实现智能环境感知和人机交互的关键。然而，惯性测量单元（IMU）信号高度依赖于设备的穿戴位置、安装方向及硬件差异，导致传统模型难以跨设备和数据集泛化，限制了其在真实环境中的应用。针对这一挑战，Chen等人提出了AnyMo，一种基于几何感知的设置无关人体运动建模框架。

AnyMo利用Nymeria人体模型，通过物理驱动的IMU仿真在人体密集体表位置生成多样且合理的合成惯性信号，覆盖了丰富的穿戴位置和方向变化。随后，采用图卷积网络对配对的合成视角和部分遮蔽观测进行预训练，学习稳定且设置无关的运动表示。为实现运动与语言的融合，AnyMo设计了基于产品量化的全身IMU token化器，将多位置IMU数据映射为紧凑的离散token序列，并与大语言模型（LLM）进行多任务对比指令微调，支持零样本识别、跨模态检索和运动描述生成。

该方法的核心技术包括掩码交叉视角预测对比学习，强化模型对不同穿戴设置的鲁棒性；基于Nymeria模型的几何感知仿真，确保合成数据的物理合理性；以及创新的IMU token化与语言模型对齐策略，弥合了连续运动信号与离散语言描述之间的模态鸿沟。

在14个未见下游数据集上的零样本人体活动识别任务中，AnyMo实现了平均准确率提升11.7%、宏F1提升11.6%、Recall@2提升22.6%的显著提升。在IMU-文本双向跨模态检索任务中，MRR分别提升15.9%和28.6%，运动描述生成任务中BERT-F1提升18.8%。这些结果充分验证了AnyMo在多样化穿戴环境下的泛化能力和多模态理解能力。

AnyMo的提出不仅推动了可穿戴IMU信号的泛化建模，也促进了运动理解与自然语言处理的深度融合，为智能健康监测、运动分析及人机交互等领域带来新的可能。未来，随着模型对更多人体形态和设备类型的适应能力提升，AnyMo有望成为通用的可穿戴运动理解基础模型，广泛应用于现实世界的智能系统中。

尽管取得了显著进展，AnyMo仍面临人体模型泛化、设备多样性适应及极端稀疏数据处理等挑战。未来研究将聚焦于增强仿真多样性、提升模型鲁棒性及扩展多模态预训练规模，进一步推动人体运动理解技术的实用化和智能化。整体而言，AnyMo为解决可穿戴设备运动感知中的核心难题提供了创新且有效的解决方案，具有重要的学术价值和应用前景。

深度分析

研究背景

人体运动是人类与环境交互的直接体现，理解人体运动对于构建主动感知用户状态的智能系统至关重要。随着智能手表、手机、智能耳机、AR眼镜及体感传感器等可穿戴设备的普及，基于惯性测量单元（IMU）的运动感知成为现实环境中连续人体运动捕捉的可行途径。传统人体运动理解多依赖视觉或固定传感器，难以适应野外复杂多变的穿戴环境。近年来，研究者尝试通过深度学习和多模态融合提升IMU信号的语义理解能力，典型方法包括基于图卷积网络的骨架动作建模、对比学习、多任务训练及语言模型对齐等。然而，IMU信号高度依赖传感器的穿戴位置、安装方向及硬件特性，导致模型难以跨设备、跨用户和跨数据集泛化，限制了其实际应用。现有合成数据增强方法多局限于稀疏传感器位置或特定活动，缺乏物理和几何一致性，且运动与语言的跨模态对齐仍面临模态鸿沟。AnyMo针对上述挑战，提出了结合物理驱动的密集几何感知仿真、设置无关表示学习及全身IMU token化与大语言模型对齐的通用人体运动理解框架。

核心问题

IMU信号的高度设置依赖性是人体运动理解中的核心瓶颈。具体表现为同一动作在不同穿戴位置、安装角度或设备硬件下产生截然不同的信号，导致训练的模型难以泛化到新设备或新用户。此外，真实IMU数据采集成本高且分散，缺乏覆盖多样穿戴设置和丰富语义标签的大规模数据集。合成数据虽能缓解数据稀缺，但现有方法多依赖于固定传感器位置或特定动作，缺乏对人体几何和物理运动的全面模拟。更重要的是，IMU信号为连续多通道时序数据，而语言描述为离散文本，两者之间存在显著的模态鸿沟，传统对比学习或简单提示难以实现有效对齐。如何构建一个几何感知、跨设置泛化且能与语言模型深度融合的通用人体运动理解系统，是当前亟待解决的难题。

核心创新

AnyMo的核心创新体现在三个方面：

1. 物理驱动的几何感知IMU仿真：基于Nymeria人体模型，AnyMo在23个解剖分段的密集体表顶点上模拟IMU信号，结合局部传感器坐标系和设备噪声，生成多样且物理合理的合成惯性数据，显著扩展了穿戴位置和安装方向的覆盖范围。

2. 设置无关的图结构预训练：利用配对的合成视角和部分遮蔽观测，设计掩码交叉视角预测对比学习目标，训练时序图卷积编码器捕捉跨视角一致的运动表示，实现对不同穿戴设置的鲁棒泛化。

3. 全身IMU token化与大语言模型对齐：采用产品量化变分自编码器将多位置IMU时序数据映射为紧凑离散token序列，扩展LLM词汇表并通过多任务对比指令微调，实现运动信号与自然语言的深度跨模态融合，支持零样本识别、跨模态检索和运动描述生成。

方法详解

�� 物理驱动IMU仿真：基于Nymeria人体模型，选取23个解剖分段的体表顶点，计算局部传感器坐标系（切线、法线、双法线方向），结合体段位置和姿态，应用IMU运动方程计算加速度和角速度，加入真实设备噪声模型，生成多样合成IMU信号。

�� 设置无关图编码器预训练：构建时空图结构，节点为体段IMU窗口，边为人体运动学树连接。采样不同体表位置和安装角度生成配对视角，随机遮蔽部分节点，利用掩码交叉视角预测对比学习（InfoNCE损失）训练图卷积网络，学习跨设置稳定的运动表示。

�� 全身IMU token化：冻结图编码器，训练基于产品量化的变分自编码器（VQ-VAE）对图编码器输出进行离散化，生成紧凑的IMU token序列，保持时间顺序。

�� 运动语言模型预训练：扩展LLM词汇表，映射IMU token至嵌入空间，进行因果语言模型预训练。

�� 多任务对比指令微调：结合运动叙述文本和活动标签，设计对比损失和生成任务，训练模型实现运动-语言对齐，支持零样本识别、跨模态检索及运动描述生成。

实验设计

AnyMo在Nymeria数据集上进行预训练，利用其同步人体网格、骨架运动、原始IMU信号及原子动作文本注释。预训练不使用任何下游数据集。评估涵盖14个未见的下游人体活动识别数据集，涵盖不同穿戴位置、设备和采样协议，分为易、中、难三个类别。检索和描述生成任务在Nymeria未见主体和EgoExo4D数据集上进行零样本测试。对比基线包括ImageBind、IMU2CLIP、IMUGPT、HARGPT、UniMTS、NormWear及Gemma等多模态和合成预训练方法。指标包括准确率、宏F1、Recall@2、MRR、BLEU、ROUGE-L、METEOR和BERT-F1。实验还包含消融分析，验证几何感知仿真、掩码交叉视角学习和token化设计的贡献。

结果分析

AnyMo在14个未见数据集的零样本人体活动识别中，平均准确率达35.7%，较最佳基线提升11.7%；宏F1为29.5%，提升11.6%；Recall@2为57.5%，提升22.6%。跨模态检索任务中，IMU到文本和文本到IMU的MRR分别提升15.9%和28.6%。运动描述生成任务中，BERT-F1提升18.8%，显示生成文本更准确。消融实验表明，几何感知仿真和掩码交叉视角对比学习显著提升了模型的泛化能力和鲁棒性。整体结果验证AnyMo在多样穿戴设置下的通用性和多模态理解能力。

应用场景

AnyMo可广泛应用于智能健康监测，通过多位置IMU实现连续、准确的运动识别，辅助疾病预防和康复；在运动分析领域，支持多设备、多用户的跨场景动作捕捉与评估；在人机交互中，结合自然语言理解，实现基于运动的智能指令识别与生成，提升交互自然度和响应速度。此外，AnyMo为可穿戴设备厂商提供统一的运动理解基础模型，降低跨设备适配成本，促进智能穿戴生态发展。

局限与展望

AnyMo依赖Nymeria人体模型的准确性，尚未充分验证对极端体型或非典型动作的适应性，可能影响仿真数据的真实性。设备噪声模型较为简单，未涵盖所有硬件差异，实际应用中可能导致性能波动。极度稀疏或缺失传感器数据时，模型的识别和生成能力下降，限制了在部分场景的应用。此外，模型计算复杂度较高，实时部署仍具挑战。

原文摘要

As wearable and mobile devices become increasingly embedded in daily life, they offer a practical way to continuously sense human motion in the wild. But inertial signals are highly dependent on the sensing setup, including body location, mounting position, sensor orientation, device hardware, and sampling protocol. This setup dependence makes it difficult to learn motion representations that transfer across devices and datasets, and limits the broader use of wearable IMUs beyond closed-set recognition. We introduce AnyMo, a geometry-aware framework for setup-agnostic human motion modeling. AnyMo uses physics-grounded IMU simulation over dense body-surface placements to generate diverse and plausible synthetic signals, pre-trains a graph encoder from paired synthetic placement views and masked partial observations, tokenizes multi-position IMU into full-body motion tokens, and aligns these tokens with an LLM for motion-language understanding. We evaluate AnyMo on three complementary tasks: zero-shot activity recognition across 14 unseen downstream datasets, cross-modal retrieval, and wearable IMU motion captioning, where it improves average Accuracy/F1/R@2 by 11.7\%/11.6\%/22.6\% on HAR, increases zero-shot IMU-to-text and text-to-IMU retrieval MRR by 15.9\% and 28.6\%, respectively, and improves zero-shot captioning BERT-F1 by 18.8\%. These results support AnyMo as a generalist model for wearable motion understanding in the wild. Project page: https://baiyuchen.com/project/AnyMo.

cs.CV cs.AI cs.CL cs.HC