iMaC: Translating Actions into Motion and Contact Images for Embodied World Models

TL;DR

iMaC将未来机器人动作转化为图像控制，提升视频预测和任务执行的空间表达能力。

cs.RO 🔴 高级 2026-06-09 99 次浏览

Zhenyu Wu Xiuwei Xu Yukun Zhou Yifan Li Qiuping Deng Xiaofeng Wang Zheng Zhu Bingyao Yu Ziwei Wang Jiwen Lu Haibin Yan

机器人视觉动作控制视频生成空间理解深度学习

核心发现

方法论

本文提出iMaC（Image as Action Control）模型，通过将机器人未来动作转化为图像控制，增强空间表达能力。模型由两个主要部分组成：一是基于机器人URDF和前向运动学渲染未来机器人状态的运动图像，用于直观描述机器人未来姿态；二是利用点云数据构建的双流几何控制图像（接触图像），描述机器人与环境的空间交互关系。模型采用基于DiT（Image-to-Video Transformer）架构，通过在潜在空间中注入运动和接触控制图像，实现高精度的未来视频预测。训练过程中引入滚动策略，逐步生成长时序视频，减少误差累积。模型还结合深度预测，增强空间理解能力。实验证明，该方法在公开操控基准和真实机器人场景中优于传统向量动作控制方法，在预测准确率、任务成功率和跨场景泛化方面表现出显著优势。

关键结果

在八个长时操控任务中，iMaC模型的预测误差平均MSE降低至0.028，FID值为36.96，显著优于基线方法（如Ctrl-World和ABot-PhysWorld），显示出更高的生成质量和空间一致性。
在机器人策略评估中，iMaC的世界模型成功率与真实机器人表现的相关系数达到0.956，验证其在策略筛选和性能预测中的有效性，尤其在长时序任务中表现出强相关性。
消融实验显示，去除接触图像或运动图像会明显降低预测精度和任务成功率，说明空间显式控制对复杂操控任务的重要性。

研究意义

该研究突破了传统动作向量表示的局限，提出将空间几何信息融入动作控制的创新方式，为机器人视觉模拟提供了更自然、更具泛化能力的模型。通过将动作转化为图像控制，模型在复杂环境中的表现更为稳健，有助于推动自主机器人在未知场景中的自主决策和操作能力提升。此外，该方法也为未来多模态融合、空间理解和长时序预测提供了新的思路，具有重要的理论和工程价值。

技术贡献

技术上，本文引入基于URDF和前向运动学的运动图像渲染，结合深度预测和点云几何控制，创新性地将空间几何信息直接融入视频生成模型。模型采用DiT架构，通过在潜在空间中注入运动和接触控制图像，有效提升了长时序预测的准确性和空间一致性。训练策略方面，采用逐步滚动的训练方法，减少误差累积，增强模型的长时预测能力。这些技术创新显著优于现有的向量动作编码和稀疏控制方法，为机器人视频预测和策略评估提供了新工具。

新颖性

本研究首次提出将未来动作转化为密集的图像控制（运动图像和接触图像），而非传统的稀疏向量或投影映射。这一创新极大增强了空间表达的直观性和精细度，使模型能更准确地捕捉机器人与环境的几何关系。与之前的工作如EVAC或ABot-PhysWorld相比，iMaC在空间控制的显式性和预测精度方面实现了突破，特别是在长时序操控任务中的表现优越，展示了空间显式控制的潜力。

局限性

模型依赖于高质量的深度信息，当前使用DA3深度估计，可能引入厘米级误差，影响接触控制的精确性，尤其在遮挡或纹理复杂场景中表现不足。
对机器人URDF模型的依赖限制了模型的泛化能力，复杂或未知机器人结构需要重新训练或调整。
长时序滚动训练虽减少误差累积，但计算成本较高，训练时间长，且在极端复杂场景下仍可能出现误差累积问题。

未来方向

未来可以结合更高精度的深度传感器或学习深度估计模型，提升空间理解的准确性。同时，探索多模态信息融合（如触觉、声学）以增强环境感知。此外，优化模型结构和训练策略，降低计算成本，提升在复杂场景中的鲁棒性，将是未来的重要方向。还可将该方法扩展到多机器人协作和自主导航，为机器人自主系统的智能化提供更强的空间表达能力。

AI 总览摘要

机器人在复杂环境中的自主操作一直是人工智能和机器人学的核心挑战。传统方法多依赖低维动作向量，如关节角度或末端执行器位置，虽然便于控制，但在空间表达和泛化能力方面存在明显局限。现有的动作条件视频预测模型难以捕捉细粒度的空间几何关系，导致在复杂操控任务中表现不佳。为解决这一问题，本文提出了iMaC（Image as Action Control）模型，将未来动作转化为密集的图像控制，显著增强了空间表达能力。

iMaC的核心创新在于利用机器人URDF模型和前向运动学，将未来动作渲染为运动图像，直观描述机器人未来姿态。同时，模型构建了基于点云的双流几何控制图像（接触图像），描述机器人与环境的空间交互关系。这些图像作为控制信号注入到基于DiT的图像到视频生成架构中，使得未来视频预测不仅具备高保真度，还能准确反映空间几何关系。

技术实现方面，模型采用多视角相机数据，结合深度预测，增强空间理解。训练过程中引入逐步滚动策略，逐块生成长时序视频，减少误差累积。实验证明，iMaC在八个公开操控任务中显著优于传统向量动作模型，不仅在预测误差、视频质量指标（如FID、PSNR）方面表现优异，还能有效评估机器人策略的实际性能，相关系数高达0.956。

这些成果表明，空间显式控制的引入极大提升了机器人视频预测的准确性和泛化能力，为自主机器人在未知环境中的决策提供了新的工具。未来，结合更高精度的深度传感器和多模态信息融合，iMaC有望推动机器人自主系统向更高层次的智能化迈进，特别是在复杂、多变的现实场景中实现更稳健的自主操作。

深度分析

研究背景

机器人自主操作和环境理解的发展经历了从传统的几何建模到深度学习的演变。早期方法依赖于精确的物理模型和手工特征，难以应对复杂场景。近年来，深度学习模型如VideoGPT、VQ-VAE等在视频生成方面取得突破，但在机器人操控中的空间表达仍有限。现有的动作条件视频预测模型多采用低维动作向量，依赖学习的条件机制，难以捕捉细粒度的空间几何关系。像EVAC和ABot-PhysWorld等尝试引入投影映射或几何控制，但仍未充分解决空间表达的直观性和精确性问题。随着机器人任务复杂度提升，单纯的动作向量难以满足高精度操控需求，空间显式控制成为研究热点。本文在此背景下提出将未来动作转化为图像控制，结合深度和点云信息，推动空间理解和长时序预测的发展。

核心问题

核心问题在于如何在机器人视频预测中实现空间几何的显式控制。传统方法多使用低维动作向量，导致模型难以准确推断细粒度的空间交互，特别是在接触和碰撞场景中。现有的空间表达手段多为投影映射或稀疏表示，缺乏直观性和细节，限制了模型在复杂操控任务中的表现。此外，长时序预测中误差累积严重，导致模型在实际应用中的可靠性不足。解决这一瓶颈需要一种能够直观描述机器人未来姿态和空间交互的控制方式，同时保证模型的泛化能力和长时预测稳定性。

核心创新

本文的创新点主要包括：1）引入运动图像（motion images），利用URDF和前向运动学渲染未来机器人状态，直观描述未来姿态；2）构建点云基础的双流几何控制图像（接触图像），描述机器人与环境的空间交互关系；3）将这些图像控制作为视频生成模型的条件输入，显式表达空间信息，提升预测精度；4）采用逐步滚动训练策略，增强模型对长时序的适应能力。这些创新解决了低维动作向量在空间表达上的局限，提供了更自然、更细粒度的空间控制方式，显著提升了机器人视频预测和策略评估的性能。

方法详解

�� 运动图像生成：利用机器人URDF模型和前向运动学，将未来的关节动作转化为机器人在不同视角下的渲染图像，直观反映未来姿态。
�� 接触图像构建：从点云数据出发，构建双流几何控制图像，描述机器人与环境的距离关系，包括机器人到场景的距离（机器人到场景）和场景到机器人（场景到机器人）两个方向。
�� 图像注入：将运动图像和接触图像作为控制信号，注入到DiT（Image-to-Video Transformer）架构中，通过潜在空间中的加法操作实现条件控制。
�� 深度预测：引入深度预测分支，提升空间理解能力，为点云构建提供几何信息。
�� 训练策略：采用逐块滚动训练，将生成的预测视频作为下一块的参考，减少误差累积，增强长时预测能力。
�� 损失函数：结合流动匹配和深度重建损失，确保RGB和深度的预测一致性。

实验设计

�� 数据集：在八个真实操控任务中采集多视角RGB视频和机器人动作轨迹，涵盖成功与失败样本。
�� 评估指标：采用MSE、FID、PSNR、SSIM、FVD等指标衡量视频生成质量，利用策略成功率和相关系数评估策略性能。
�� 基线模型：对比传统向量动作控制模型（如Ctrl-World）和稀疏投影控制模型（如EVAC、ABot-PhysWorld）
�� ablation研究：剔除运动图像或接触图像，分析空间控制的贡献；比较不同深度来源（DA3与真实深度）对性能的影响。
�� 训练细节：分两个阶段训练，第一阶段在所有任务上共享模型，第二阶段微调至特定任务，采用逐块滚动策略。

结果分析

�� 预测质量：iMaC在八个任务中，平均MSE为0.028，FID为36.96，优于所有对比模型，验证了空间显式控制的有效性。
�� 策略评估：相关系数高达0.956，表明模型能准确反映策略性能，尤其在长时操控任务中表现出色。
�� ablation分析：缺少接触图像或运动图像会导致预测误差增加，任务成功率下降，验证空间控制的重要性。
�� 训练策略：逐块滚动训练显著减少误差累积，提高长时序预测的稳定性。

应用场景

�� 机器人自主操作：可用于机器人策略的快速评估和调优，减少实际硬件试验，提升开发效率。
�� 虚拟仿真：作为高保真虚拟环境的基础，支持复杂任务的模拟和训练。
�� 交互式环境理解：增强机器人对空间关系的理解，推动自主导航和协作任务的发展。

局限与展望

�� 依赖高质量深度信息，当前使用DA3深度估计可能引入误差，影响接触控制精度。
�� 需要机器人URDF模型，复杂或未知机器人结构需重新训练。
�� 长时序滚动训练计算成本高，模型在极端复杂场景中仍可能出现误差累积。未来需优化模型结构和训练策略，以提升鲁棒性和效率。

通俗解读非专业人士也能看懂

想象你在厨房里做饭。每次你都要根据食材和菜谱，决定下一步怎么操作。传统的方法就像用手指指点，告诉自己“加点盐”、“炒一会儿”，这些动作虽然简单，但不能直观表现你要做的具体动作，比如“用勺子搅拌”或“把菜倒进锅里”。

现在，假设你用一台智能厨房助手，它可以把你未来的动作都画成一幅图，比如“用勺子搅拌的动作场景”，甚至还能画出你和锅、食材的空间关系。这幅图让你一目了然知道下一步要怎么操作，也能帮你提前预估操作的效果。

这就像iMaC模型，把机器人未来的动作变成一张张“操作场景图”，让机器人更聪明地理解自己要做什么，以及怎么和环境互动。通过这种方式，机器人不再只是模糊地“转动关节”，而是像画家一样，把每个动作都画出来，确保每一步都精准到空间细节。这种直观的空间表达，让机器人在复杂任务中变得更可靠、更灵活。

简单解释像给14岁少年讲一样

想象你在玩一个机器人游戏，你可以告诉机器人“去拿那个球”或者“把书放到桌子上”。以前的机器人只能听懂一些简单的指令，比如“转动手臂到某个位置”，但它们很难理解动作背后的空间关系。就像你用手指指着某个地方，但机器人不知道你指的是哪个角落，也不知道怎么准确到达。

现在，假设有一种新方法，可以把未来机器人要做的动作画成一幅画，比如画出机器人手臂的运动轨迹，甚至画出它和物体之间的距离。这就像你在画画，告诉机器人“我想让它的手臂像这样运动”，它可以用这幅画来理解动作的空间细节。

这样一来，机器人就能更聪明地理解你要它做什么，尤其是在需要精确操作的任务中，比如拼装玩具或抓取小物件。它不再只是模糊地“转动关节”，而是用一幅“动作图”来指导自己，确保每一步都很准确。这就像你用地图导航，知道每个转弯和距离，机器人也能像人一样，靠“画出来的动作”更聪明、更可靠地完成任务。

原文摘要

Embodied world models have emerged as a pivotal paradigm for visual robotic decision-making and interactive environment simulation. However, conventional embodied frameworks rely on low-dimensional structured action vectors (e.g., joint angles and end-effector poses), which suffer from limited expressive capacity, poor generalization across diverse embodiments, and unnatural dynamic modeling for complex physical interactions. To address these limitations, this paper proposesiMac (Image as Action Control), a novel unified control paradigm that treats raw visual images as native action representations for embodied world models. Departing from traditional explicit kinematic action encoding, iMac formulates continuous visual manipulation as image-based action tokens, which inherently encapsulate spatial motion intentions, interactive geometric constraints and subtle physical dynamics. We construct a dual-branch embodied architecture consisting of an image-action encoder and a dynamic world predictor: the encoder compresses target-driven visual images into compact action embeddings, while the predictor learns environment transition rules conditioned on image actions to achieve high-fidelity future state prediction and closed-loop embodied control. Extensive experiments are conducted on public embodied manipulation benchmarks and real-world robotic scenarios. The results demonstrate that iMac outperforms vector-based action control baselines in prediction accuracy, task success rate and cross-scene generalization ability. Moreover, our image-action design eliminates the reliance on manually defined action spaces, realizing flexible and universal control for heterogeneous embodied agents. This work provides an innovative visual-action perspective for embodied world models, offering a simple yet effective paradigm for scalable robotic perception and manipulation.

cs.RO cs.CV

iMaC: Translating Actions into Motion and Contact Images for Embodied World Models

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

原文摘要

相关论文

Increasing Resilience of Continuum Robots via Motion Planning Algorithms

ARC: Adaptive Robust Joint State and Covariance Estimation

Do as I Do: Dexterous Manipulation Data from Everyday Human Videos

Observability and Consistency Analysis for Visual-Inertial Navigation with Anchored Feature Parameterizations

Visual Verification Enables Inference-time Steering and Autonomous Policy Improvement

R2RDreamer: 3D-aware Data Augmentation for Spatially-generalized 2D Manipulation Policies

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样