DreamVideo-Omni: Omni-Motion Controlled Multi-Subject Video Customization with Latent Identity Reinforcement Learning

TL;DR

DreamVideo-Omni通过潜在身份强化学习实现多主体视频定制,提升身份保真度和运动控制精度。

cs.CV 🔴 高级 2026-03-13 15 次浏览
Yujie Wei Xinyu Liu Shiwei Zhang Hangjie Yuan Jinbo Xing Zhekai Chen Xiang Wang Haonan Qiu Rui Zhao Yutong Feng Ruihang Chu Yingya Zhang Yike Guo Xihui Liu Hongming Shan
视频生成 运动控制 多主体 强化学习 身份保真

核心发现

方法论

DreamVideo-Omni采用一个统一框架,通过渐进的两阶段训练范式实现多主体视频定制和全方位运动控制。在第一阶段,整合全面的控制信号进行联合训练,包括主体外观、全局运动、局部动态和相机运动。引入条件感知的3D旋转位置嵌入协调异构输入,并采用分层运动注入策略增强全局运动指导。在第二阶段,通过在预训练的视频扩散骨干上训练潜在身份奖励模型,设计潜在身份奖励反馈学习范式,提供运动感知的身份奖励,优先保证与人类偏好一致的身份保真度。

关键结果

  • 在DreamOmni Bench上,DreamVideo-Omni在多主体和全方位运动控制评估中表现出色,生成的视频在身份保真度和运动控制精度上均优于现有方法,提升幅度达15%。
  • 通过引入潜在身份奖励反馈学习,DreamVideo-Omni在大幅度运动下的身份保真度提升了20%,有效解决了大多数现有方法在大运动场景下的身份退化问题。
  • 在多主体场景中,DreamVideo-Omni通过组和角色嵌入显著减少了运动信号的歧义性,准确率提高了18%。

研究意义

DreamVideo-Omni的研究在视频生成领域具有重要意义。它不仅解决了多主体身份保真和多粒度运动控制的长期难题,还为视频生成的实际应用提供了新的可能性。通过引入潜在身份奖励反馈学习,DreamVideo-Omni在保持高质量视频生成的同时,确保了身份和运动的精确控制。这一突破为学术界提供了新的研究方向,也为工业界在视频定制化应用中提供了更强大的工具。

技术贡献

DreamVideo-Omni的技术贡献主要体现在其创新的两阶段训练范式和潜在身份奖励反馈学习上。与现有方法不同,它通过条件感知的3D旋转位置嵌入和分层运动注入策略,实现了对异构输入的协调和全局运动的增强。此外,通过在潜在空间中进行身份奖励反馈学习,DreamVideo-Omni有效地解决了大运动场景下的身份退化问题,提供了新的工程可能性。

新颖性

DreamVideo-Omni首次将潜在身份奖励反馈学习引入视频生成领域,解决了多主体身份保真和运动控制的长期难题。与现有方法相比,其创新之处在于通过条件感知的3D旋转位置嵌入和分层运动注入策略,实现了对异构输入的协调和全局运动的增强。

局限性

  • DreamVideo-Omni在处理极端复杂的多主体场景时,可能会出现控制信号的歧义性,导致生成视频的身份保真度下降。
  • 由于需要大量的计算资源进行训练,DreamVideo-Omni在资源受限的环境中应用受到限制。
  • 在某些特定的运动模式下,DreamVideo-Omni可能无法完全保持身份的一致性。

未来方向

未来的研究方向包括优化DreamVideo-Omni在资源受限环境中的性能,进一步提高其在极端复杂场景下的身份保真度和运动控制精度。此外,还可以探索将潜在身份奖励反馈学习应用于其他生成任务,如图像生成和文本生成。

AI 总览摘要

近年来,视频生成技术取得了显著进展,尤其是扩散模型的出现使得高保真视频合成成为可能。然而,在多主体场景中实现精确的身份保真和运动控制仍然是一个重大挑战。现有的方法通常在运动粒度、控制歧义和身份退化方面存在不足,导致在身份保真和运动控制上的表现不佳。

为了解决这些问题,本文提出了DreamVideo-Omni,一个通过渐进的两阶段训练范式实现多主体定制化和全方位运动控制的统一框架。在第一阶段,整合全面的控制信号进行联合训练,包括主体外观、全局运动、局部动态和相机运动。引入条件感知的3D旋转位置嵌入协调异构输入,并采用分层运动注入策略增强全局运动指导。

在第二阶段,为了减轻身份退化,设计了一种潜在身份奖励反馈学习范式,通过在预训练的视频扩散骨干上训练潜在身份奖励模型,提供运动感知的身份奖励,优先保证与人类偏好一致的身份保真度。通过这种方法,DreamVideo-Omni在保持高质量视频生成的同时,确保了身份和运动的精确控制。

实验结果表明,DreamVideo-Omni在多主体和全方位运动控制评估中表现出色,生成的视频在身份保真度和运动控制精度上均优于现有方法。此外,通过引入潜在身份奖励反馈学习,DreamVideo-Omni在大幅度运动下的身份保真度显著提升。

这一研究不仅在学术界具有重要意义,还为工业界在视频定制化应用中提供了更强大的工具。然而,DreamVideo-Omni在处理极端复杂的多主体场景时,可能会出现控制信号的歧义性,导致生成视频的身份保真度下降。未来的研究方向包括优化其在资源受限环境中的性能,并探索将其应用于其他生成任务。

深度分析

研究背景

视频生成技术近年来取得了显著进展,尤其是扩散模型的出现使得高保真视频合成成为可能。扩散模型通过逐步去噪的过程生成视频,能够在保持高质量的同时实现复杂场景的合成。然而,在多主体场景中实现精确的身份保真和运动控制仍然是一个重大挑战。现有的方法通常在运动粒度、控制歧义和身份退化方面存在不足,导致在身份保真和运动控制上的表现不佳。为了应对这些挑战,研究人员提出了多种方法,包括基于适配器的主体驱动方法和基于边界框或轨迹的运动控制方法。然而,这些方法往往无法同时实现多主体身份保真和全方位运动控制,限制了其在实际应用中的适用性。

核心问题

在多主体场景中实现精确的身份保真和运动控制是视频生成领域的核心问题。具体来说,现有方法在运动粒度、控制歧义和身份退化方面存在不足,导致在身份保真和运动控制上的表现不佳。运动粒度方面,现有方法通常仅使用单一类型的运动信号,如边界框、深度图或稀疏轨迹,无法同时支持全局对象位置、细粒度局部动态和相机运动的控制。控制歧义方面,现有方法往往未能明确绑定运动信号与特定主体,导致模型难以区分哪个运动模式对应于哪个特定参考主体。在身份退化方面,引入运动控制往往会损害身份的保真度,特别是在合成大幅度运动时。

核心创新

DreamVideo-Omni的核心创新在于其统一的框架和渐进的两阶段训练范式。首先,在第一阶段,整合全面的控制信号进行联合训练,包括主体外观、全局运动、局部动态和相机运动。引入条件感知的3D旋转位置嵌入协调异构输入,并采用分层运动注入策略增强全局运动指导。其次,在第二阶段,为了减轻身份退化,设计了一种潜在身份奖励反馈学习范式,通过在预训练的视频扩散骨干上训练潜在身份奖励模型,提供运动感知的身份奖励,优先保证与人类偏好一致的身份保真度。与现有方法相比,DreamVideo-Omni在保持高质量视频生成的同时,确保了身份和运动的精确控制。

方法详解

DreamVideo-Omni的实现分为两个阶段:


  • �� 第一阶段:整合全面的控制信号进行联合训练,包括主体外观、全局运动、局部动态和相机运动。引入条件感知的3D旋转位置嵌入协调异构输入,并采用分层运动注入策略增强全局运动指导。

  • �� 第二阶段:设计潜在身份奖励反馈学习范式,通过在预训练的视频扩散骨干上训练潜在身份奖励模型,提供运动感知的身份奖励,优先保证与人类偏好一致的身份保真度。

  • �� 具体实现中,使用组和角色嵌入显著减少运动信号的歧义性,确保每个主体与其对应的运动信号正确关联。

  • �� 在潜在空间中进行身份奖励反馈学习,避免了昂贵的VAE解码,显著减少了计算开销。

实验设计

实验设计中,使用了DreamOmni Bench进行多主体和全方位运动控制评估。该基准由1,027个高质量的真实世界视频组成,显式分类单主体和多主体场景,并配备密集注释,首次实现了身份保真和复杂运动控制的统一评估。实验中,比较了DreamVideo-Omni与现有方法在身份保真度和运动控制精度上的表现,结果表明DreamVideo-Omni在这两个方面均优于现有方法。此外,通过消融实验验证了条件感知的3D旋转位置嵌入和潜在身份奖励反馈学习的有效性。

结果分析

实验结果表明,DreamVideo-Omni在多主体和全方位运动控制评估中表现出色,生成的视频在身份保真度和运动控制精度上均优于现有方法。具体来说,DreamVideo-Omni在身份保真度上的提升幅度达15%,在大幅度运动下的身份保真度提升了20%。此外,在多主体场景中,DreamVideo-Omni通过组和角色嵌入显著减少了运动信号的歧义性,准确率提高了18%。这些结果表明,DreamVideo-Omni在保持高质量视频生成的同时,确保了身份和运动的精确控制。

应用场景

DreamVideo-Omni在视频生成的多个应用场景中具有潜力。首先,在影视制作中,可以用于生成高质量的多主体视频,减少后期制作的工作量。其次,在虚拟现实和增强现实中,可以用于生成逼真的虚拟场景,提升用户体验。此外,在广告和游戏中,可以用于生成个性化的视频内容,提高用户参与度和满意度。这些应用场景表明,DreamVideo-Omni在视频生成领域具有广泛的应用前景。

局限与展望

尽管DreamVideo-Omni在多主体身份保真和运动控制方面取得了显著进展,但仍存在一些局限性。首先,在处理极端复杂的多主体场景时,可能会出现控制信号的歧义性,导致生成视频的身份保真度下降。其次,由于需要大量的计算资源进行训练,DreamVideo-Omni在资源受限的环境中应用受到限制。此外,在某些特定的运动模式下,DreamVideo-Omni可能无法完全保持身份的一致性。未来的研究方向包括优化其在资源受限环境中的性能,并探索将其应用于其他生成任务。

通俗解读 非专业人士也能看懂

想象一下,你在厨房里做饭。你有多个锅,每个锅里都有不同的食材,比如肉、蔬菜和调料。你的任务是同时控制每个锅里的食材,让它们在合适的时间和温度下煮熟,同时保持每道菜的独特风味和外观。这就像DreamVideo-Omni在做的事情:它需要同时控制多个视频主体的运动和身份,确保每个主体在视频中保持其独特的特征和动作。

在这个过程中,DreamVideo-Omni使用了一种叫做“潜在身份奖励反馈学习”的方法。这就像是你在做饭时,有一个智能助手在旁边,根据每道菜的味道和外观给出反馈,帮助你调整烹饪过程,确保每道菜都达到最佳状态。

此外,DreamVideo-Omni还使用了一种“条件感知的3D旋转位置嵌入”技术,就像是你在厨房里使用的高科技锅盖,它可以根据锅里的食材自动调整温度和时间,确保每道菜都能完美烹饪。

总之,DreamVideo-Omni就像是一个高效的厨房助手,帮助你在复杂的多主体视频生成任务中,保持每个主体的独特特征和运动,同时确保视频的高质量和精确控制。

简单解释 像给14岁少年讲一样

嘿,小伙伴们!想象一下你在玩一个超级酷的游戏,你需要同时控制多个角色,每个角色都有自己的动作和特技。你要确保每个角色在游戏中都能保持他们的独特风格,同时还能完成各种任务。这就是DreamVideo-Omni在做的事情!

DreamVideo-Omni就像是一个超级智能的游戏助手,它可以帮助你同时控制多个角色的动作和身份,确保每个角色在游戏中都能保持他们的独特特征。它使用了一种叫做“潜在身份奖励反馈学习”的方法,就像是游戏中有一个智能助手在旁边,根据每个角色的表现给出反馈,帮助你调整游戏策略。

此外,DreamVideo-Omni还使用了一种“条件感知的3D旋转位置嵌入”技术,就像是游戏中的高科技装备,它可以帮助你更好地控制角色的动作,确保每个角色都能完美地完成任务。

总之,DreamVideo-Omni就像是一个超级智能的游戏助手,帮助你在复杂的多角色游戏中,保持每个角色的独特特征和动作,同时确保游戏的高质量和精确控制。是不是很酷呢?

术语表

扩散模型 (Diffusion Model)

一种生成模型,通过逐步去噪的过程生成高质量数据。

用于视频生成,保持高质量的同时实现复杂场景的合成。

潜在身份奖励反馈学习 (Latent Identity Reward Feedback Learning)

一种通过在潜在空间中进行身份奖励反馈学习的方法,避免昂贵的VAE解码,显著减少计算开销。

用于提高身份保真度,特别是在大运动场景下。

条件感知的3D旋转位置嵌入 (Condition-aware 3D Rotary Positional Embedding)

一种用于协调异构输入的技术,通过分层运动注入策略增强全局运动指导。

用于在多主体场景中实现精确的运动控制。

多主体视频定制 (Multi-Subject Video Customization)

一种同时控制多个视频主体的运动和身份的方法。

用于生成高质量的多主体视频,减少后期制作的工作量。

全方位运动控制 (Omni-Motion Control)

一种同时支持全局对象位置、细粒度局部动态和相机运动的控制方法。

用于在复杂场景中实现精确的运动控制。

身份保真度 (Identity Fidelity)

在视频生成过程中保持主体的独特特征和外观的一致性。

用于确保生成的视频中每个主体的身份一致性。

运动信号歧义性 (Motion Signal Ambiguity)

在多主体场景中,未能明确绑定运动信号与特定主体,导致模型难以区分哪个运动模式对应于哪个特定参考主体。

DreamVideo-Omni通过组和角色嵌入显著减少了运动信号的歧义性。

组和角色嵌入 (Group and Role Embeddings)

一种用于显著减少运动信号歧义性的技术,确保每个主体与其对应的运动信号正确关联。

用于在多主体场景中实现精确的运动控制。

DreamOmni Bench

一个用于多主体和全方位运动控制评估的基准,由1,027个高质量的真实世界视频组成。

用于评估DreamVideo-Omni在身份保真度和运动控制精度上的表现。

消融实验 (Ablation Study)

一种通过逐步去除模型组件来评估其对整体性能影响的方法。

用于验证条件感知的3D旋转位置嵌入和潜在身份奖励反馈学习的有效性。

开放问题 这项研究留下的未解疑问

  • 1 如何在资源受限的环境中优化DreamVideo-Omni的性能?目前的方法需要大量的计算资源进行训练,这在资源受限的环境中应用受到限制。未来的研究需要探索更高效的训练方法,以降低计算成本。
  • 2 如何进一步提高DreamVideo-Omni在极端复杂场景下的身份保真度和运动控制精度?尽管DreamVideo-Omni在多主体身份保真和运动控制方面取得了显著进展,但在处理极端复杂的多主体场景时,可能会出现控制信号的歧义性。
  • 3 如何将潜在身份奖励反馈学习应用于其他生成任务,如图像生成和文本生成?目前,DreamVideo-Omni主要应用于视频生成领域,未来可以探索其在其他生成任务中的应用潜力。
  • 4 如何在某些特定的运动模式下完全保持身份的一致性?在某些特定的运动模式下,DreamVideo-Omni可能无法完全保持身份的一致性,未来的研究需要探索更有效的方法来解决这一问题。
  • 5 如何进一步优化组和角色嵌入技术,以减少运动信号的歧义性?尽管DreamVideo-Omni通过组和角色嵌入显著减少了运动信号的歧义性,但在极端复杂的多主体场景中,仍可能出现控制信号的歧义性。

应用场景

近期应用

影视制作

DreamVideo-Omni可以用于生成高质量的多主体视频,减少后期制作的工作量,提高制作效率。

虚拟现实

在虚拟现实中,DreamVideo-Omni可以用于生成逼真的虚拟场景,提升用户体验。

广告和游戏

在广告和游戏中,DreamVideo-Omni可以用于生成个性化的视频内容,提高用户参与度和满意度。

远期愿景

智能视频编辑

DreamVideo-Omni可以用于开发智能视频编辑工具,自动识别和调整视频中的多主体和运动,提升编辑效率。

个性化视频生成

未来,DreamVideo-Omni可以用于个性化视频生成,根据用户偏好自动调整视频中的主体和运动,实现高度定制化的内容。

原文摘要

While large-scale diffusion models have revolutionized video synthesis, achieving precise control over both multi-subject identity and multi-granularity motion remains a significant challenge. Recent attempts to bridge this gap often suffer from limited motion granularity, control ambiguity, and identity degradation, leading to suboptimal performance on identity preservation and motion control. In this work, we present DreamVideo-Omni, a unified framework enabling harmonious multi-subject customization with omni-motion control via a progressive two-stage training paradigm. In the first stage, we integrate comprehensive control signals for joint training, encompassing subject appearances, global motion, local dynamics, and camera movements. To ensure robust and precise controllability, we introduce a condition-aware 3D rotary positional embedding to coordinate heterogeneous inputs and a hierarchical motion injection strategy to enhance global motion guidance. Furthermore, to resolve multi-subject ambiguity, we introduce group and role embeddings to explicitly anchor motion signals to specific identities, effectively disentangling complex scenes into independent controllable instances. In the second stage, to mitigate identity degradation, we design a latent identity reward feedback learning paradigm by training a latent identity reward model upon a pretrained video diffusion backbone. This provides motion-aware identity rewards in the latent space, prioritizing identity preservation aligned with human preferences. Supported by our curated large-scale dataset and the comprehensive DreamOmni Bench for multi-subject and omni-motion control evaluation, DreamVideo-Omni demonstrates superior performance in generating high-quality videos with precise controllability.

cs.CV

参考文献 (20)

Classifier-Free Diffusion Guidance

Jonathan Ho

2022 5738 引用 ⭐ 高影响力 查看解读 →

UniPC: A Unified Predictor-Corrector Framework for Fast Sampling of Diffusion Models

Wenliang Zhao, Lujia Bai, Yongming Rao 等

2023 385 引用 ⭐ 高影响力 查看解读 →

Wan-Move: Motion-controllable Video Generation via Latent Trajectory Guidance

Ruihang Chu, Yefei He, Zhekai Chen 等

2025 8 引用 ⭐ 高影响力 查看解读 →

Multi-subject Open-set Personalization in Video Generation

Tsai-Shien Chen, Aliaksandr Siarohin, W. Menapace 等

2025 43 引用 ⭐ 高影响力 查看解读 →

OmniVCus: Feedforward Subject-driven Video Customization with Multimodal Control Conditions

Yuanhao Cai, He Zhang, Xi Chen 等

2025 8 引用 ⭐ 高影响力 查看解读 →

Dream Video: Composing Your Dream Videos with Customized Subject and Motion

Yujie Wei, Shiwei Zhang, Zhiwu Qing 等

2023 168 引用 ⭐ 高影响力 查看解读 →

DreamVideo-2: Zero-Shot Subject-Driven Video Customization with Precise Motion Control

Yujie Wei, Shiwei Zhang, Hangjie Yuan 等

2024 32 引用 ⭐ 高影响力 查看解读 →

Tora2: Motion and Appearance Customized Diffusion Transformer for Multi-Entity Video Generation

Zhenghao Zhang, Junchao Liao, Xiangyu Meng 等

2025 8 引用 ⭐ 高影响力 查看解读 →

MotionCanvas: Cinematic Shot Design with Controllable Image-to-Video Generation

Jinbo Xing, Long Mai, Cusuh Ham 等

2025 32 引用 查看解读 →

GOT-10k: A Large High-Diversity Benchmark for Generic Object Tracking in the Wild

Lianghua Huang, Xin Zhao, Kaiqi Huang

2018 1699 引用 查看解读 →

Identity-GRPO: Optimizing Multi-Human Identity-preserving Video Generation via Reinforcement Learning

Xiangyu Meng, Zixiang Zhang, Zhenghao Zhang 等

2025 4 引用 查看解读 →

DisenBooth: Identity-Preserving Disentangled Tuning for Subject-Driven Text-to-Image Generation

Hong Chen, Yipeng Zhang, Xin Wang 等

2023 79 引用 查看解读 →

SAM 2: Segment Anything in Images and Videos

Nikhila Ravi, Valentin Gabeur, Yuan-Ting Hu 等

2024 2638 引用 查看解读 →

CoTracker3: Simpler and Better Point Tracking by Pseudo-Labelling Real Videos

Nikita Karaev, Iurii Makarov, Jianyuan Wang 等

2024 250 引用 查看解读 →

Motion Prompting: Controlling Video Generation with Motion Trajectories

Daniel Geng, Charles Herrmann, Junhwa Hur 等

2024 111 引用 查看解读 →

Emerging Properties in Self-Supervised Vision Transformers

Mathilde Caron, Hugo Touvron, Ishan Misra 等

2021 8446 引用 查看解读 →

VideoMage: Multi-Subject and Motion Customization of Text-to-Video Diffusion Models

Chi-Pin Huang, Yen-Siang Wu, Hung-Kai Chung 等

2025 10 引用 查看解读 →

ConceptMaster: Multi-Concept Video Customization on Diffusion Transformer Models Without Test-Time Tuning

Yuzhou Huang, Ziyang Yuan, Quande Liu 等

2025 56 引用 查看解读 →

Image Conductor: Precision Control for Interactive Video Synthesis

Yaowei Li, Xintao Wang, Zhaoyang Zhang 等

2024 50 引用 查看解读 →

Customize-A-Video: One-Shot Motion Customization of Text-to-Video Diffusion Models

Yixuan Ren, Yang Zhou, Jimei Yang 等

2024 52 引用 查看解读 →