MotiMotion: Motion-Controlled Video Generation with Visual Reasoning

TL;DR

MotiMotion结合视觉语言模型推理与置信度调控，实现运动控制视频生成，MotiBench评测优于MagicMotion和Wan-Move。

cs.CV 🔴 高级 2026-05-22 55 次浏览

Lee Hsin-Ying Hanwen Jiang Yiqun Mei Jing Shi Ming-Hsuan Yang Zhixin Shu

运动控制视频生成视觉语言模型因果推理置信度调节

核心发现

方法论

本文提出MotiMotion框架，将运动控制视频生成问题重新定义为先推理后生成的流程。核心包括基于视觉语言模型（VLM）的推理模块，用于解析用户稀疏轨迹和视觉上下文，生成物理合理且符合常识的细化运动轨迹及次级运动；以及置信度感知的运动控制模块，通过对轨迹置信度评分动态调节生成模型对轨迹的遵循强度，实现高置信度轨迹的严格跟随和低置信度轨迹的生成先验补偿。训练采用基于流匹配（Flow-Matching）的扩散变换器（Diffusion Transformer）架构，结合3D VAE编码视频潜空间，利用OpenVid数据集进行微调。MotiBench作为新基准，包含交互驱动的物理因果场景，支持系统化评估。

关键结果

在MotiBench基准上，MotiMotion在物理真实感、照片真实感和语义一致性三个指标上分别达到0.285、0.493和0.641，显著优于MagicMotion（0.157、0.550、0.343）和Wan-Move（0.218、0.483、0.511），显示出更合理的物体行为和交互。
基于Gemini 3.1 Pro视觉语言模型的自动评测和人类主观测试均表明，MotiMotion在物体属性和交互两方面均获得超过70%的胜率，人类评测中胜率高达81.4%-97.9%，体现出用户对生成视频的高度偏好。
消融实验显示，VLM推理模块和置信度感知控制均显著提升生成视频的物理合理性和语义一致性，分别提升物理指标约0.07和0.05，验证了推理与置信度调节的关键作用。

研究意义

本研究突破了传统运动控制视频生成模型严格执行用户轨迹的局限，首次将视觉语言模型引入运动推理，赋予模型理解视觉上下文和常识物理因果的能力。通过置信度感知机制，模型能够灵活处理不完美的用户输入，提升生成运动的自然性和合理性。这不仅推动了图像到视频生成领域的可控性和真实感，也为交互式视频编辑、虚拟现实和机器人视觉等应用提供了新的技术路径，解决了长期存在的运动控制稀疏、非精确和因果不完整的问题。

技术贡献

技术上，MotiMotion创新性地将训练免费视觉语言模型作为推理引擎，自动细化和补全用户稀疏轨迹，实现因果一致的运动规划。提出置信度感知控制机制，通过轨迹置信度评分动态调节生成模型对运动条件的依赖程度，平衡严格跟随与生成先验，解决了用户输入不确定性带来的生成质量下降问题。采用基于流匹配的扩散变换器结合3D VAE潜空间编码，实现高效且精细的运动控制视频生成。构建MotiBench基准，专注物理交互前事件，支持系统化评测，填补了缺乏因果运动评估数据集的空白。

新颖性

MotiMotion首次将视觉语言模型无训练推理能力引入运动控制视频生成，突破了以往模型对用户轨迹的机械执行限制，实现了基于视觉上下文和常识的动态运动推理。置信度感知控制机制创新性地解决了轨迹输入不完美带来的生成矛盾，提升了运动自然度和合理性。MotiBench作为首个专注因果物理交互的图像到视频基准，推动了该领域的评测标准化。

局限性

模型对视觉语言模型的推理能力依赖较大，若VLM理解不足或推理错误，可能导致运动规划不合理，影响生成质量。
置信度评分机制依赖于训练时的轨迹降噪模拟，实际应用中如何准确评估用户轨迹置信度仍具挑战，可能影响控制效果。
当前方法在复杂多物体长时序交互及高分辨率视频生成方面尚未充分验证，存在计算资源和生成效率的瓶颈。

未来方向

未来工作可聚焦提升视觉语言模型的推理准确性和多模态理解能力，结合物理仿真模块增强运动因果推理的精度。进一步研究置信度估计方法，提升运动控制的自适应性和鲁棒性。扩展MotiMotion至更长时序、多物体复杂交互视频生成，优化模型架构以提升生成效率和分辨率，推动实际应用落地。

AI 总览摘要

视频生成技术近年来因扩散模型和大型基础模型的兴起而取得显著进展，然而在运动控制方面仍面临用户输入稀疏、非精确且缺乏因果完整性的挑战，导致生成视频运动不自然甚至不合理。传统方法严格执行用户轨迹，忽视了物理和语义的隐含因果关系，难以模拟真实世界的连锁反应和交互动态。

针对这一问题，本文提出MotiMotion，一种结合视觉语言模型推理与置信度感知控制的新型运动控制视频生成框架。该框架将运动控制视为先推理后生成的过程，利用训练免费视觉语言模型理解输入图像、稀疏轨迹及文本提示，推断并细化符合物理和常识的运动轨迹及次级因果运动。置信度感知机制根据轨迹置信度动态调节生成模型对轨迹的依赖，既保证高置信度轨迹的严格遵循，又允许低置信度轨迹下模型发挥生成先验，提升运动自然度。

技术实现方面，MotiMotion基于Wan 2.2 I2V-A14B扩散变换器架构，结合3D VAE潜空间编码视频，采用流匹配目标训练运动控制能力。视觉语言模型Gemini 3.1 Pro作为推理引擎，辅助生成物理合理的运动计划。为系统评估，构建了MotiBench基准，涵盖多种预事件物理交互场景，要求模型推断并生成因果连贯的动态。

实验结果显示，MotiMotion在MotiBench上物理真实感、照片真实感和语义一致性指标均显著优于MagicMotion和Wan-Move，自动评测和人类主观测试均表明其生成视频在物体行为和交互上更符合物理常识和用户预期。消融研究验证了视觉语言模型推理和置信度控制对提升生成质量的关键作用。

本研究不仅提升了运动控制视频生成的可控性和真实感，缓解了用户手动精细轨迹设计的负担，还为视频生成领域引入了因果推理的新范式。未来工作将聚焦提升推理准确性、置信度估计及长时序复杂交互生成，推动技术向实际应用转化。

深度分析

研究背景

图像到视频生成领域近年来因扩散模型（如Ho等人提出的DDPM）和大型基础模型（如DeepMind的Gemini系列）迅速发展，实现了高质量且语义对齐的动态视觉内容合成。尽管如此，视频生成的时序控制仍是瓶颈，尤其在需要精确运动轨迹和物理因果一致性的应用中。现有方法多依赖用户提供的运动轨迹，如拖拽路径（Wu等）、边界框序列（Wang等）或光流图（Burgert等），实现对运动的空间和时间控制。然而，这些轨迹往往稀疏、粗糙且缺乏因果完整性，导致生成运动不自然，缺失次级物理效应和连锁反应。用户难以手动指定复杂运动的细节，如重力加速度或机械联动，增加了交互负担。当前运动控制模型多作为轨迹的机械执行者，忽视了视觉上下文和物理常识的推理，限制了生成视频的真实感和合理性。

核心问题

核心问题在于如何实现对运动控制视频生成的因果推理和物理合理性支持。具体挑战包括：1）用户输入轨迹稀疏且非精确，缺乏对次级运动和因果连锁反应的描述；2）现有模型严格执行轨迹，忽视轨迹背后的物理和语义意图，导致生成结果不符合现实世界物理规律；3）缺乏机制处理轨迹不确定性，无法平衡轨迹遵循与生成先验的关系；4）缺少专门评测运动因果和物理合理性的基准数据集，难以系统评估模型性能。解决这些问题对于提升视频生成的交互性、真实感及应用价值至关重要。

核心创新

本研究的核心创新包括：

�� 引入视觉语言模型（VLM）作为无训练推理引擎，结合图像、轨迹和文本提示，推断并细化符合物理和常识的运动轨迹及次级因果运动，突破了传统模型对轨迹的机械执行限制。

�� 提出置信度感知运动控制机制，根据轨迹置信度动态调节生成模型对轨迹的依赖程度，实现对高置信度轨迹的严格跟随和对低置信度轨迹的生成先验补偿，提升运动自然度和鲁棒性。

�� 采用基于流匹配的扩散变换器结合3D VAE潜空间编码，实现高效精细的运动控制视频生成。

�� 构建MotiBench基准，专注于预事件物理交互场景，支持因果物理合理性和语义一致性的系统化评测，填补了该领域评测数据集的空白。

方法详解

�� 基础视频生成器采用Wan 2.2 I2V-A14B架构，基于流匹配目标训练扩散变换器，结合3D VAE编码视频潜空间，实现高质量视频合成。

�� 运动表示通过在视频时空体积中以二维高斯热图形式编码稀疏点轨迹，映射到潜空间作为运动条件输入。

�� 运动条件与参考图像潜编码及噪声潜编码拼接输入扩散变换器，模型通过3D自注意力和跨注意力层融合运动、结构和语义信息。

�� 视觉语言模型Gemini 3.1 Pro作为推理模块，输入包括轨迹文本描述、轨迹可视化叠加图像及用户文本提示，推断详细运动叙述和细化轨迹，补全次级运动。

�� 迭代推理机制允许多轮轨迹和叙述修正，直至满足物理合理性和用户期望。

�� 置信度感知训练策略通过对部分训练轨迹施加空间仿射变换、时间线性化和平滑处理，模拟轨迹不确定性，训练模型学习置信度与轨迹遵循强度的映射。

�� 生成阶段根据轨迹置信度动态调整高斯热图峰值强度，控制模型对轨迹的依赖程度，实现高置信度严格跟随，低置信度依赖生成先验补充自然细节。

实验设计

�� 数据集：采用OpenVid数据集进行基础训练，构建MotiBench基准，包含多种预事件物理交互场景，配备手绘轨迹和文本提示。

�� 基线方法：MagicMotion（Li等）、Wan-Move（Chu等）等现有运动控制视频生成模型。

�� 评测指标：物理真实感、照片真实感、语义一致性，采用Gemini 3.1 Pro视觉语言模型自动评测；人类主观2AFC偏好测试。

�� 训练细节：基础训练5K步，学习率1e-5，批量16；置信度感知微调3K步，50%样本轨迹降噪。

�� 消融实验验证视觉语言模型推理模块和置信度控制模块对性能提升的贡献。

�� 轨迹获取：使用CoTracker3点跟踪工具提取训练视频轨迹。

结果分析

�� MotiMotion在MotiBench上物理真实感指标达0.285，较MagicMotion提升约82%，较Wan-Move提升约30%；语义一致性提升显著，达0.641。

�� 自动评测和人类主观测试均显示MotiMotion在物体属性和交互方面胜率超过70%，人类偏好高达81.4%-97.9%，表明生成视频更符合物理规律和用户预期。

�� 消融实验表明，加入视觉语言模型推理提升物理真实感约0.07，运动细化进一步提升约0.05，置信度感知控制显著改善运动自然度和鲁棒性。

�� 视觉语言模型推理模块可迁移至其他运动控制方法，普遍提升物理合理性和语义一致性。

应用场景

�� 交互式视频编辑：用户通过简单轨迹和文本提示控制复杂运动，降低操作门槛，提高编辑效率。

�� 虚拟现实与增强现实：生成符合物理和因果逻辑的动态场景，提升沉浸感和交互真实性。

�� 机器人视觉与仿真：基于视觉推理生成合理运动，辅助机器人理解和预测环境动态。

�� 教育与娱乐内容创作：自动生成物理合理的动画和特效，丰富内容表现力。

�� 影视特效预览：快速模拟复杂物理交互，辅助设计和决策。

局限与展望

�� 依赖视觉语言模型推理能力，推理错误或理解不足时可能导致运动规划不合理。

�� 置信度评分依赖训练时模拟，实际应用中准确评估轨迹置信度仍具挑战，影响生成控制效果。

�� 当前未充分验证长时序、多物体复杂交互及高分辨率视频生成，存在计算资源和效率瓶颈。

原文摘要

Current motion-controlled image-to-video generation models rigidly follow user-provided trajectories that are often sparse, imprecise, and causally incomplete. Such reliance often yields unnatural or implausible outcomes, especially by missing secondary causal consequences. To address this, we introduce MotiMotion, a novel framework that reformulates motion control as a reasoning-then-generation problem. To encourage causally grounded and commonsense-consistent interactions, we leverage a training-free vision-language reasoner to refine image-space coordinates of primary trajectories and to hallucinate plausible secondary motions. To further improve motion naturalness, we propose a confidence-aware control scheme that modulates guidance strength, enabling the model to closely follow high-confidence plans while correcting artifacts under low-confidence inputs with its internal generative priors. To support systematic evaluation, we curate a new image-to-video benchmark, MotiBench, consisting of interaction-centric scenes where new events are triggered by motion. Both VLM-based evaluation and a human study on MotiBench demonstrate that MotiMotion produces videos with more plausible object behaviors and interaction, and is preferred over existing approaches.

cs.CV

参考文献 (20)

T2I-Copilot: A Training-Free Multi-Agent Text-to-Image System for Enhanced Prompt Interpretation and Interactive Generation

Chieh-yun Chen, Min Shi, Gong Zhang 等

2025 20 引用 ⭐ 高影响力查看解读 →

AUTO-ENCODING VARIATIONAL BAYES

Romain Lopez, Pierre Boyeau, N. Yosef 等

2020 23277 引用 ⭐ 高影响力

Image Conductor: Precision Control for Interactive Video Synthesis

Yaowei Li, Xintao Wang, Zhaoyang Zhang 等

2024 58 引用 ⭐ 高影响力查看解读 →

Wan-Move: Motion-controllable Video Generation via Latent Trajectory Guidance

Ruihang Chu, Yefei He, Zhekai Chen 等

2025 19 引用 ⭐ 高影响力查看解读 →

VideoREPA: Learning Physics for Video Generation through Relational Alignment with Foundation Models

Xiangdong Zhang, Jiaqi Liao, Shaofeng Zhang 等

2025 51 引用 ⭐ 高影响力查看解读 →

PhysGen3D: Crafting a Miniature Interactive World from a Single Image

Boyuan Chen, Hanxiao Jiang, Shaowei Liu 等

2025 47 引用 ⭐ 高影响力查看解读 →

Flow Matching for Generative Modeling

Y. Lipman, Ricky T. Q. Chen, Heli Ben-Hamu 等

2022 4472 引用查看解读 →

Force Prompting: Video Generation Models Can Learn and Generalize Physics-based Control Signals

Nate Gillman, Charles Herrmann, Michael Freeman 等

2025 31 引用查看解读 →

CameraCtrl: Enabling Camera Control for Video Diffusion Models

Hao He, Yinghao Xu, Yuwei Guo 等

2025 49 引用

MotionCanvas: Cinematic Shot Design with Controllable Image-to-Video Generation

Jinbo Xing, Long Mai, Cusuh Ham 等

2025 39 引用查看解读 →

Peekaboo: Interactive Video Generation via Masked-Diffusion

Yash Jain, Anshul Nasery, Vibhav Vineet 等

2023 75 引用查看解读 →

Trajectory Attention for Fine-grained Video Motion Control

Zeqi Xiao, Wenqi Ouyang, Yifan Zhou 等

2024 53 引用查看解读 →

MagicAnimate: Temporally Consistent Human Image Animation using Diffusion Model

Zhongcong Xu, Jianfeng Zhang, J. Liew 等

2023 381 引用查看解读 →

LeviTor: 3D Trajectory Oriented Image-to-Video Synthesis

Hanlin Wang, Ouyang Hao, Qiuyu Wang 等

2024 32 引用查看解读 →

MetaMorph: Multimodal Understanding and Generation via Instruction Tuning

Shengbang Tong, David Fan, Jiacheng Zhu 等

2024 190 引用查看解读 →

Show-o: One Single Transformer to Unify Multimodal Understanding and Generation

Jinheng Xie, Weijia Mao, Zechen Bai 等

2024 637 引用查看解读 →

MagicMotion: Controllable Video Generation with Dense-to-Sparse Trajectory Guidance

Quanhao Li, Zhen Xing, Rui Wang 等

2025 40 引用查看解读 →

SG-I2V: Self-Guided Trajectory Control in Image-to-Video Generation

Koichi Namekata, Sherwin Bahmani, Ziyi Wu 等

2024 58 引用查看解读 →

VideoAgent: Self-Improving Video Generation

Achint Soni, Sreyas Venkataraman, Abhranil Chandra 等

2024 22 引用查看解读 →

Generative Video Motion Editing with 3D Point Tracks

Yao-Chih Lee, Zhoutong Zhang, Jiahui Huang 等

2025 6 引用查看解读 →