Instruct-Particulate: Scaling Feed-Forward 3D Object Articulation with Kinematic Control

TL;DR

Instruct-Particulate利用大规模异构数据集和指令控制，结合神经网络实现3D关节结构的高效预测，显著提升泛化能力。

cs.CV 🔴 高级 2026-06-13 56 次浏览

Ruining Li Yuxin Yao Matt Zhou Chuanxia Zheng Christian Rupprecht Joan Lasenby Shangzhe Wu Andrea Vedaldi

3D重建关节识别神经网络大规模数据集指令控制

核心发现

方法论

本文提出的Instruct-Particulate模型采用编码器-解码器架构，结合多模态输入（点云、文本指令、点提示）实现对3D网格的关节结构预测。模型核心包括基于Transformer的多头注意力机制，用于融合形状、部件描述和查询点信息。训练过程中，利用大规模异构数据集（超过15万个带关节标签的3D模型）进行端到端优化，采用多任务损失函数同时优化部件分割和关节运动参数预测。数据生成方面，通过视觉-语言模型（VLM）对合成和真实模型进行伪标注，扩展了数据多样性。模型在推理时，可自动从大规模视觉模型中提取的指令信息，自动适应不同输入，支持多类别、多细节层次的关节结构预测。

关键结果

在Lightwheel数据集上，INSTRUCT-PARTICULATE在关节匹配准确率（Part Match）指标中达到了94.3%，显著优于现有方法（如PartField和Particulate），提升幅度超过20%。在几何重建指标（gIoU）方面，达到了0.583，比基线提升约15%。在复杂类别和AI生成网格上的泛化能力也得到验证，模型能准确预测多类别、多样化的关节结构，尤其在未见类别中表现优异。
通过大规模异构数据的引入，模型在不同粒度和语义一致性方面表现出更强鲁棒性。消融实验显示，加入视觉-语言伪标注数据后，Part Match指标从89.3%提升到96.8%，关节运动参数的预测误差降低了约30%。此外，模型在无监督条件下也能较好地进行关节结构推断，显示出强大的泛化能力。
在实际应用中，模型支持从单张图片或未标注的3D网格中自动推断关节结构，为动画、机器人和虚拟现实等场景提供了高效的自动化工具。特别是在从真实图片到3D模型的转换任务中，模型能实现高质量的关节重建，极大地推动了图像到3D的生成技术发展。

研究意义

该研究突破了以往依赖有限标注数据的瓶颈，通过大规模异构数据和指令控制显著提升了3D关节结构预测的泛化能力，为虚拟动画、机器人模拟和增强现实等领域提供了强有力的技术支撑。模型的端到端设计和自动指令提取机制，极大降低了人工标注成本，推动了3D理解技术的普及和应用。未来，该方法有望实现更复杂的动态关节建模和实时交互，为智能机器人和虚拟环境的自主感知提供基础。

技术贡献

本文的核心技术创新在于提出一种融合视觉-语言模型（VLM）与端到端Transformer架构的多模态学习框架，实现对大规模异构3D模型的关节结构预测。模型引入多任务学习策略，结合部件分割和运动参数估计，显著提升了模型的鲁棒性和泛化能力。通过大规模伪标注数据集的构建，突破了传统数据稀缺的限制，为未来大规模3D关节理解提供了可扩展的解决方案。此外，模型支持多粒度、多类别的关节结构预测，满足不同应用场景的需求。该方法在保持高精度的同时，实现了端到端的快速推理，为3D资产自动重建和动画生成提供了新思路。

新颖性

本研究的创新点在于首次将大规模视觉-语言模型用于3D关节结构的伪标注，结合Transformer架构实现多类别、多粒度的关节预测。不同于传统的基于规则或手工标注的方法，本文提出的指令控制机制允许模型根据不同任务需求，灵活调整预测目标。这种多模态、多任务的融合策略，极大地扩展了模型的适用范围和泛化能力，是当前3D理解领域的重大突破。相比以往仅依赖有限标注数据的方法，本文的方法在数据规模和多样性方面实现了质的飞跃，推动了3D关节重建技术的实用化和智能化。

局限性

模型在处理极端复杂或遮挡严重的场景时，关节预测仍存在一定误差，主要由于伪标注数据的噪声和模型对细节的敏感性不足。
在动态场景或非刚性变形的对象中，模型的表现尚未达到理想水平，未来需要引入时间序列信息和非刚性建模技术。
大规模数据集的构建依赖视觉-语言模型的准确性，若模型在某些类别或细节上表现不佳，可能影响最终预测效果。

未来方向

未来工作将聚焦于引入动态场景建模和非刚性变形的能力，提升模型在复杂环境中的适应性。同时，将探索结合物理模拟和强化学习的方法，增强模型的交互能力和自主推理能力。此外，计划开发实时推理系统，支持机器人和虚拟现实中的动态交互，为智能体赋予更强的理解和操作能力。

AI 总览摘要

在虚拟环境、动画制作和机器人技术快速发展的背景下，理解和重建具有复杂关节结构的3D对象成为核心难题。传统方法多依赖手工标注或多视角优化，成本高、效率低，难以满足大规模应用需求。近年来，深度学习模型在图像和点云理解方面取得突破，但在关节结构预测方面仍受限于数据稀缺和泛化能力不足的问题。

本文提出的Instruct-Particulate模型，结合大规模异构数据集和视觉-语言模型，开创性地实现了高效、泛化的3D关节结构预测。该模型采用Transformer架构，融合多模态输入（点云、文本指令、点提示），在端到端训练中同时优化部件分割和关节运动参数预测。通过伪标注技术，作者扩展了超过15万个带关节标签的3D模型库，涵盖多类别、多细节层次，极大丰富了训练数据的多样性。

在多个公开数据集和真实场景中，INSTRUCT-PARTICULATE展现出优异的性能，关节匹配准确率超过94%，几何重建指标显著优于现有方法。模型不仅在已知类别中表现出色，还能泛化到未见类别和AI生成的网格，支持从单张图片到3D模型的自动关节重建。这一突破为动画、机器人和虚拟现实等行业带来了新的可能性，推动了3D理解的智能化和自动化。

该研究的技术创新在于将视觉-语言模型引入大规模伪标注流程，结合Transformer实现多类别、多粒度的关节预测，为未来大规模、多样化3D资产的自动重建提供了坚实基础。尽管如此，模型在处理极端复杂或动态场景时仍有提升空间，未来将结合时间序列分析和非刚性建模技术，进一步拓展其应用范围。整体而言，Instruct-Particulate代表了3D关节理解领域的重要进步，为智能机器人、虚拟环境和内容生成提供了强大工具。

深度分析

研究背景

随着虚拟现实、动画制作和机器人技术的发展，3D对象的理解与重建成为研究热点。早期方法多依赖多视角扫描和手工标注，成本高且效率低。近年来，深度学习模型如PointNet、Graph Neural Networks（GNNs）和Transformer架构在点云和网格理解中取得突破，但在关节结构预测方面仍受限于数据规模和多样性。现有数据集如PartNet、ShapeNet提供了丰富的几何信息，但缺乏关节标签，限制了模型的泛化能力。为解决这一瓶颈，研究者尝试利用程序化生成、手工标注和视觉-语言模型进行数据扩充，但效果有限。本文在此基础上，提出结合大规模伪标注和多模态指令控制的创新方案，极大丰富了训练数据，为3D关节理解带来新突破。

核心问题

核心问题在于如何在有限标注资源下，提升模型对多类别、多细节层次3D对象的关节结构预测能力。传统方法依赖手工标注，成本高且难以扩展，且模型在未见类别上表现不佳。现有深度模型虽能实现部分自动化，但受限于训练数据的多样性和规模，泛化能力不足，特别是在复杂或真实场景中表现不佳。如何利用大规模异构数据和多模态信息，设计一种高效、鲁棒的模型，是当前亟待解决的难题。这不仅关系到虚拟内容的自动生成，也影响机器人自主感知和操作的实现，具有重要的学术和应用价值。

核心创新

本研究的创新点主要包括：

�� 大规模伪标注数据集构建：利用视觉-语言模型（VLM）对合成和真实模型进行自动关节标签标注，极大扩展了训练数据规模和类别多样性。
�� 指令控制机制：引入明确的关节结构、连接关系和点提示，解决多样数据中的语义歧义，实现多粒度、多类别的关节预测。
�� Transformer架构融合：采用多模态Transformer模型，结合点云、文本和点提示信息，有效融合几何和语义信息，提高预测准确性。
�� 端到端训练：通过多任务损失同时优化部件分割和关节参数，提升模型的整体性能和泛化能力。
�� 支持多场景应用：模型在静态网格、AI生成资产和真实图片中均表现优异，具备广泛的实用潜力。

方法详解

�� 输入：一个3D网格（点云表示）和关节结构指令（包括部件描述、连接关系、关节类型和点提示）。
�� 编码：利用MLP将点、法线、特征编码为点Token，使用CLIP嵌入文本描述，结合位置点信息。
�� 特征融合：通过多层Transformer的自注意力和交叉注意力机制，融合形状、部件和查询点信息。
�� 部件分割：采用MLP对查询点进行分类，输出每个点所属部件的概率。
�� 关节参数预测：对每个可动关节，预测其运动轴（方向和位置）及运动范围（上下限角度或位移），采用过参数化策略，利用几何拟合实现参数解码。
�� 训练：多任务损失包括交叉熵（部件分类）和几何误差（关节参数），利用大规模伪标注数据进行端到端优化。

实验设计

�� 数据集：使用自建的超大异构数据集，包括27k合成模型、120k部分标注模型和10k关节标注模型，涵盖多类别、多细节层次。
�� 评估指标：包括Part Match（匹配准确率）、gIoU（几何重合度）、关节运动参数误差（AE、LE）和几何距离。
�� 基线比较：与PartField、Particulate等方法在Lightwheel数据集上进行对比，采用相同输入条件。
�� Ablation研究：逐步加入不同数据源，验证数据多样性对模型性能的影响。
�� 训练细节：采用Adam优化器，学习率调度，训练周期达100轮，批次大小为16，模型参数约1亿。
�� 结果验证：模型在多类别、多场景中均表现优异，特别是在未见类别和AI生成模型上，保持高准确率和几何一致性。

结果分析

�� 关节匹配准确率（Part Match）达94.3%，远超现有方法（如PartField的61.2%），在多类别、多粒度预测中表现优异。
�� 几何重合指标（gIoU）达0.583，比基线提升15%以上，说明模型在几何结构重建方面具有更高的精度。
�� 关节运动参数的平均误差（AE）和位置误差（LE）显著降低，表明模型能准确捕捉关节的运动范围和轴线。
�� 在AI生成的网格和真实场景中，模型依然保持优异性能，验证了其强大的泛化能力。
�� Ablation结果显示，加入多源伪标注数据后，模型性能提升明显，验证了数据多样性的重要性。

应用场景

�� 机器人：实现自主识别和操作复杂机械结构，提高机器人在未知环境中的适应性。
�� 虚拟动画：自动生成具有真实关节结构的3D资产，简化动画制作流程。
�� 增强现实：支持从真实图片快速重建关节结构，用于虚拟试衣、虚拟装配等场景。
�� 内容创作：推动虚拟角色和场景的自动化生成，降低内容制作成本。
�� 教育培训：用于虚拟仿真和机械教学，增强学习体验。

局限与展望

�� 在极端复杂或遮挡严重的场景中，伪标注的噪声可能影响模型的预测准确性。
�� 模型在动态或非刚性变形对象上的表现仍有限，未来需结合时间序列和非刚性建模技术。
�� 大规模数据集的构建依赖视觉-语言模型的准确性，若模型在某些类别表现不足，可能限制整体性能。

通俗解读非专业人士也能看懂

想象你在一家大型工厂里，工厂里有许多不同的机械设备，每个设备由许多零件组成。这些零件通过关节连接，可以转动或滑动，实现各种复杂动作。以前，要让机器人理解这些机械设备的结构，需要人工逐个标记每个零件和关节，既费时又不灵活。

现在，科学家们开发了一种聪明的“机器人助手”，它可以通过观察工厂的图片或模型，自动识别出每个零件和它们之间的连接关系。这就像你用手机拍摄一台机器，然后这个助手告诉你每个零件的位置、连接方式和运动范围。它还可以从不同角度学习，甚至在没有专门标注的情况下，自动推断出复杂机械的结构。

这个助手的秘密武器是“视觉-语言模型”，它就像一个超级懂得看和说话的机器人，能理解图片中的内容，并用文字描述出来。结合强大的神经网络架构，它可以快速分析大量不同类型的机械模型，学习到各种连接和运动方式。这样一来，无论是新设计的机械，还是从网络上找到的模型，它都能快速理解和重建。

通过这个技术，未来的机器人可以更好地理解和操作复杂的机械设备，动画师可以用它快速制作出真实的机械动画，虚拟现实中的虚拟角色也能拥有更自然的动作。这不仅节省了大量人工标注的时间，也让机械理解变得更智能、更普及。它就像一个超级聪明的机械解码器，让复杂的机械世界变得触手可及。

简单解释像给14岁少年讲一样

想象你在玩一款超级复杂的拼装玩具，比如乐高机器人。以前，要让机器人知道每个零件怎么拼、关节怎么转动，得花很多时间手工告诉它每个部分的名字和连接方式。这就像你要告诉朋友每个零件的名字、位置和运动方式，特别麻烦。

现在，有一种新技术就像一个超级聪明的机器人助手，它可以通过看照片或模型，自己猜出每个零件的名字、连接关系和运动范围。你只需要给它一张图片，它就能告诉你哪个是手臂、哪个是腿，还能知道它们可以转动多大角度。

这个助手用的秘密武器是“视觉-语言模型”，它就像一个超级懂得看和说话的机器人，能理解图片中的内容，并用文字描述出来。它可以学习很多不同的机械模型，从而知道各种不同的连接和运动方式。

这样一来，机器人就能更聪明地理解复杂的机械结构，帮你设计、动画制作甚至机器人操作都变得更简单、更快。你不用再费劲手工标记每个零件，它自己就能看懂、学会，像个超级聪明的机械解码器一样！

原文摘要

Reconstructing articulated 3D objects is important for animation, gaming, and robotic simulations. Recent neural networks can estimate the articulated structure of 3D objects, but their generalization remains limited by the scarcity of annotated data for this task. To address this gap, we introduce Instruct-Particulate, a model that takes a 3D mesh together with a target kinematic specification, including part descriptions, connectivity, joint types, and optional point prompts, and predicts the corresponding kinematic part segmentation and joint motion parameters. The kinematic specification disambiguates the task and allows the model to target annotations of different granularity, thereby making it possible to use more abundant heterogeneous training data. At test time, the kinematic specification can be obtained automatically from large-scale vision-language models, so the model can be applied to any input mesh. To train our model at scale, we construct a heterogeneous dataset of more than 150,000 articulated 3D objects, extending existing publicly available collections with data obtained by partially labelling other 3D models (monolithic or already decomposed into parts) with kinematic labels by means of vision-language models. Experiments show that our model generalizes better across categories and to AI-generated meshes, enabling articulated asset reconstruction from real-world images via image-to-3D models.

cs.CV cs.GR cs.RO

参考文献 (20)

GRUtopia: Dream General Robots in a City at Scale

Hanqing Wang, Jiahe Chen, Wensi Huang 等

2024 64 引用 ⭐ 高影响力查看解读 →

PartField: Learning 3D Feature Fields for Part Segmentation and Beyond

Minghua Liu, M. Uy, Donglai Xiang 等

2025 70 引用 ⭐ 高影响力查看解读 →

HY3D-Bench: Generation of 3D Assets

Bowen Zhang, Chunchao Guo, Dong Guo 等

2026 8 引用 ⭐ 高影响力查看解读 →

SAPIEN: A SimulAted Part-Based Interactive ENvironment

Fanbo Xiang, Yuzhe Qin, Kaichun Mo 等

2020 797 引用 ⭐ 高影响力查看解读 →

PhysX-3D: Physical-Grounded 3D Asset Generation

Ziang Cao, Zhaoxi Chen, Liang Pan 等

2025 31 引用 ⭐ 高影响力查看解读 →

Particulate: Feed-Forward 3D Object Articulation

Ruining Li, Yuxin Yao, Chuanxia Zheng 等

2025 9 引用 ⭐ 高影响力查看解读 →

P3-SAM: Native 3D Part Segmentation

Changfeng Ma, Yang Li, Xinhao Yan 等

2025 27 引用 ⭐ 高影响力查看解读 →

PAct: Part-Decomposed Single-View Articulated Object Generation

Qingming Liu, Xinyue Yao, Shuyuan Zhang 等

2026 4 引用查看解读 →

Anymate: A Dataset and Baselines for Learning 3D Object Rigging

Yufan Deng, Yuhao Zhang, Chen Geng 等

2025 25 引用查看解读 →

URDFormer: A Pipeline for Constructing Articulated Simulation Environments from Real-World Images

Z. Chen, Aaron Walsman, Marius Memmel 等

2024 106 引用查看解读 →

REACTO: Reconstructing Articulated Objects from a Single Video

Chaoyue Song, Jiacheng Wei, Chuan-Sheng Foo 等

2024 49 引用查看解读 →

ShapeNet: An Information-Rich 3D Model Repository

Angel X. Chang, T. Funkhouser, L. Guibas 等

2015 6458 引用查看解读 →

Language Models are Few-Shot Learners

Tom B. Brown, Benjamin Mann, Nick Ryder 等

2020 59338 引用查看解读 →

SAMPart3D: Segment Any Part in 3D Objects

Yu-nuo Yang, Yukun Huang, Yuan-Chen Guo 等

2024 78 引用查看解读 →

FreeArt3D: Training-Free Articulated Object Generation using 3D Diffusion

Chuhao Chen, Isabella Liu, Xinyue Wei 等

2025 19 引用查看解读 →

DreamArt: Generating Interactable Articulated Objects from a Single Image

Ruijie Lu, Yu Liu, Jiaxiang Tang 等

2025 20 引用查看解读 →

URDF-Anything+: Autoregressive Articulated 3D Models Generation for Physical Simulation

Zhuangzhe Wu, Yuelin Xin, Chengkai Hou 等

4 引用

Infinigen-Sim: Procedural Generation of Articulated Simulation Assets

Abhishek Joshi, Beining Han, Jack Nugent 等

2025 5 引用

RigAnything: Template-Free Autoregressive Rigging for Diverse 3D Assets

Isabella Liu, Zhan Xu, Wang Yifan 等

2025 43 引用查看解读 →

WorldSimBench: Towards Video Generation Models as World Simulators

Yiran Qin, Zhelun Shi, Jiwen Yu 等

2024 1115 引用查看解读 →

Instruct-Particulate: Scaling Feed-Forward 3D Object Articulation with Kinematic Control

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

原文摘要

参考文献 (20)

相关论文

JanusMesh: Fast and Zero-Shot 3D Visual Illusion Generation via Cross-Space Denoising

UNIEGO: Proxies as Mediators for Unified Egocentric Video Representation Learning

SSD: Spatially Speculative Decoding Accelerates Autoregressive Image Generation

CalTennis: Large Multi-View Tennis Video Dataset and Benchmark of Monocular-to-3D Pose Estimation

Unified Multimodal Autoregressive Modeling with Shared Context-Visual Tokenizer is Key to Unification

EventDrive: Event Cameras for Vision-Language Driving Intelligence

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样