Flex4DHuman: Flexible Multi-view Video Diffusion for 4D Human Reconstruction

TL;DR

Flex4DHuman利用相对相机姿态编码，从单目或稀疏多视角视频生成同步密集多视角视频，无需几何先验，超越现有方法。

cs.CV 🔴 高级 2026-06-12 68 次浏览

Jen-Hao Cheng Yipeng Wang Hao Zhang Gengshan Yang Jenq-Neng Hwang

多视角视频合成扩散模型人体重建相机姿态编码 4D动态表示

核心发现

方法论

本文提出Flex4DHuman，一种基于扩散模型的多视角视频生成方法，核心在于引入五轴位置编码，结合空间、时间、视角索引和连续SE(3)相机几何信息，替代传统的骨架、深度或法线等几何先验。模型基于Wan 2.1的1.3B文本到视频架构，通过逐步训练实现姿态跟随、灵活视角转换和时间推演。训练过程中采用三阶段课程，包括单参考视角、动态参考视角和长序列时间推演，利用干净的历史目标视图token和多视角字幕增强模型的多视角一致性和文本控制能力。生成的多视角视频可直接用于动态4D高斯点云重建，支持从单目或稀疏多视角输入实现高质量的人体动态重建。

关键结果

在DNA-Rendering数据集上，Flex4DHuman在PSNR、SSIM和LPIPS指标上均优于现有最先进方法，超越Diffuman4D-GT-skeleton +1.21dB PSNR（达到25.44dB），在无几何先验条件下实现了更高的视角一致性和时间连续性。
在ActorsHQ数据集上，模型在多视角一致性和长序列推演方面表现优异，显示出良好的泛化能力，且在动物类别上经过混合训练后也能有效生成非人类动态场景。
通过引入多视角字幕和多阶段训练策略，模型在稀疏输入条件下依然保持高质量、多视角同步，验证了其在实际应用中的潜力。

研究意义

该研究突破了传统依赖几何先验的多视角视频合成限制，提出无需骨架、深度等几何信息的生成框架，为动态人体和动物的高效重建提供了新途径。其技术创新极大地推动了虚拟人像、AR/VR、游戏和影视后期制作的发展，降低了多视角数据采集的门槛，向大规模、真实感强的4D内容生成迈出了关键一步。

技术贡献

本文的技术贡献主要体现在：首先，提出基于五轴位置编码的相机几何条件机制，有效融合空间、时间、视角和连续SE(3)几何信息，增强模型的泛化能力；其次，设计了三阶段训练课程，逐步引导模型实现姿态跟随、视角转换和时间推演，提升多视角一致性和时间连续性；再次，结合文本字幕和背景drop增强模型的多模态控制能力；最后，将生成的多视角视频直接用于动态4D高斯点云重建，实现在单目或稀疏多视角条件下的高质量人体动态重建。

新颖性

本研究的创新点在于：首次提出无需几何先验的多视角视频扩散生成框架，利用相对相机姿态编码实现多视角一致性，突破了以往依赖骨架或深度信息的限制。相较于Diffuman4D和MV-Performer等方法，Flex4DHuman在无需几何先验的情况下实现了更高质量的多视角同步和长序列推演，展现出极强的泛化能力和应用潜力。

局限性

模型在极端复杂场景或极大视角变化下可能出现生成不一致或细节丢失的问题，主要由于训练数据的多样性有限。
当前训练和推理依赖大量GPU资源（如H100 32×），在实际部署中存在计算成本较高的问题，限制了实时应用的可能性。
对非人类类别的泛化仍存在一定局限，尽管在动物数据上表现良好，但在更复杂的场景中仍需进一步优化模型结构和训练策略。

未来方向

未来工作将集中在提升模型的多样性和鲁棒性，扩展到更复杂的动态场景和多类别对象，探索更高效的训练和推理方案以降低计算成本。同时，结合更丰富的多模态信息（如声音、动作描述）实现更丰富的内容控制，以及在实际应用中实现实时多视角生成和动态重建，推动虚拟人、虚拟场景的普及与商业化。

AI 总览摘要

在虚拟内容生成领域，动态人体和动物的高质量、多视角重建一直是技术难点。传统方法依赖于精确的几何先验，如骨架模型、深度图或法线信息，限制了其在实际场景中的应用灵活性。本文提出Flex4DHuman，一种创新的多视角视频扩散模型，突破了这一瓶颈。该模型基于Wan 2.1的1.3B文本到视频架构，引入五轴位置编码，将空间、时间、视角索引和连续SE(3)相机几何信息融合到自注意力机制中，实现无需几何先验的多视角视频生成。通过三阶段训练策略，从单参考视角到多视角、多时间推演，模型逐步学习到跨视角和长时间序列的动态一致性。训练过程中结合多视角字幕和背景drop增强模型的多模态控制能力，使其在稀疏输入条件下依然保持高质量输出。实验结果显示，Flex4DHuman在DNA-Rendering和ActorsHQ两个数据集上均优于现有最先进方法，不仅在人体重建中表现出色，还能成功推广到动物类别，展现出极强的泛化能力。最令人振奋的是，该模型生成的多视角视频可以直接用于动态4D高斯点云重建，从而实现从单目或稀疏多视角视频到高质量动态3D内容的快速转换。这一突破为虚拟人像、增强现实、虚拟现实、游戏开发和影视后期制作提供了全新的技术路径。未来，随着模型效率的提升和多模态信息的融合，预计其在大规模内容生成和实时交互中的应用潜力将得到极大释放，为虚拟世界的构建带来革命性变革。

深度分析

研究背景

随着深度学习和神经渲染技术的发展，动态人体和动物的三维重建逐渐成为研究热点。早期方法如Neural Body、D-NeRF和Neural Actor依赖于多视角捕获和场景优化，获得了逼真的渲染效果，但对场景的几何信息和校准相机要求极高。近年来，单目视频的自由视点合成成为研究重点，代表性工作如HumanNeRF和NeuMan，降低了采集成本，但仍依赖于场景特定的训练和人体模型。与此同时，基于扩散模型的生成方法逐渐崭露头角，SV4D和Diffuman4D引入空间-时间一致的生成框架，尝试在稀疏视角下实现连续、多视角的人体视频合成。尽管如此，这些方法多依赖于骨架或深度先验，限制了其在非受控环境中的应用。本文的背景是希望突破几何先验的限制，提出一种无需骨架、深度或法线信息的多视角视频生成框架，满足实际场景中多样化、低成本的内容需求。

核心问题

当前多视角人体视频合成方法普遍依赖于精确的几何先验，如骨架模型或深度图，导致在非标定或动态场景中表现不佳。此外，这些方法在多视角一致性和时间连续性方面存在瓶颈，难以实现大规模、多类别的泛化。尤其是在实际应用中，获取高质量几何信息成本高昂，限制了技术的普及。如何在没有几何先验的情况下，依然实现高质量、多视角同步的动态人体视频生成，成为亟待解决的核心问题。

核心创新

本文的创新点主要包括：1）引入五轴位置编码，将空间、时间、视角索引和连续SE(3)几何信息融合到自注意力机制中，有效实现无几何先验的多视角生成；2）设计三阶段训练课程，从单视角到多视角、多时间推演，逐步提升模型的多视角一致性和时间连续性；3）结合多视角字幕和背景drop增强多模态控制能力，实现稀疏输入条件下的高质量生成；4）将生成的视频直接用于动态4D高斯点云重建，支持从单目视频快速构建动态3D模型。这些创新极大地拓展了多视角视频合成的应用场景，突破了传统方法的限制。

方法详解

�� 构建基础模型：采用Wan 2.1的1.3B文本到视频扩散架构，作为生成的基础框架。

�� 位置编码设计：用五轴位置编码（空间、时间、视角索引、连续SE(3)几何）替代传统的空间时间RoPE，结合PRoPE机制，将相对相机姿态融入自注意力中。

�� 输入表示：将参考视角和目标视角的输入编码为36通道特征，包括噪声潜在、条件潜在和二值掩码。

�� 训练策略：采用三阶段课程，包括单参考视角（Stage 1）、动态参考视角（Stage 2）、长序列时间推演（Stage 3），每个阶段逐步引入复杂性。

�� 多模态控制：引入多视角字幕，支持文本条件调控生成内容。

�� 生成过程：在训练中利用干净的历史目标视图token进行时间推演，推理时通过分块滚动实现长序列多视角同步生成。

�� 后续重建：利用生成的多视角视频，结合现有的4D高斯点云方法，快速重建动态3D人体模型。

实验设计

�� 数据集：在DNA-Rendering、ActorsHQ和动物DFA数据集上进行评估，涵盖人类和动物类别。

�� 评估指标：使用PSNR、SSIM和LPIPS衡量生成视频的质量和一致性。

�� 实验设置：在不同的输入条件（单视角、稀疏多视角）下测试模型性能，比较基线包括Diffuman4D和MV-Performer。

�� 超参数：训练在32×H100 GPU上进行，分阶段训练30k-15k轮，推理采用40步去噪，指导权重为3.0。

�� Ablation研究：验证位置编码设计的有效性、多视角字幕的贡献和长序列推演能力。

�� 泛化测试：在动物数据上进行混合训练，验证模型跨类别的适应能力。

结果分析

�� 在DNA-Rendering数据集上，Flex4DHuman在PSNR达到25.44dB，优于Diffuman4D-GT-skeleton +1.21dB，且在SSIM和LPIPS指标上也表现优异，显示出在无几何先验条件下的高质量生成能力。

�� 在ActorsHQ数据集上，模型在多视角一致性和长序列推演方面表现出色，验证了其在真实场景中的应用潜力。

�� 在动物类别上，经过混合训练后，模型依然保持良好的生成质量，证明其泛化能力强，适应不同类别的动态场景。

应用场景

�� 立即应用：可用于虚拟人像、虚拟主播、AR/VR内容生成、影视特效制作，用户只需提供少量视频和相机姿态信息，即可快速生成高质量多视角动画。

�� 长远愿景：未来可实现大规模、实时的虚拟场景构建，推动虚拟人、虚拟场景的普及，降低内容制作成本，丰富虚拟世界的交互体验。

局限与展望

�� 当前模型在极端复杂或快速运动场景中仍可能出现细节模糊或不一致的问题，主要由于训练数据的多样性不足。

�� 训练和推理对GPU资源需求较高，难以实现实时应用，限制了其在低成本设备上的部署。

�� 泛化到非人体类别（如动物以外的物体）仍需进一步验证，模型在更复杂场景中的表现尚待优化。

通俗解读非专业人士也能看懂

想象你在一家工厂里，工厂的任务是制造各种复杂的机械。传统的方法就像是每台机器都必须提前知道所有零件的详细设计图，才能组装出完整的机器。这就意味着每次要制造新机器时，都得重新设计和调试，既费时又费力。

而这项研究提出的方法，像是工厂里引入了一种智能机器人，它不用事先知道所有零件的详细信息，只需要知道零件之间的相对位置和运动方式，就能自己组合出不同的机械。这个机器人通过观察少量的样品，学习到零件之间的关系，然后可以在不同的场景中灵活地组装出各种机械，无论是人还是动物的动作都能模拟得非常自然。

具体来说，这个机器人利用一种叫做“扩散模型”的智能算法，结合一种特殊的“相对位置编码”，让它知道不同视角、不同时间点的姿态变化。它就像是一个能“想象”出多角度、多时间点动作的魔术师，能从少量的照片或视频中，生成完整的多角度动态视频，就像是用一只魔法镜子，把一个人的动作从不同角度同时展现出来。

通过大量的训练，这个系统不仅能生成逼真的人体动作，还能扩展到动物或其他物体。它的出现大大降低了制作虚拟人物和场景的门槛，让未来的虚拟世界更加丰富和真实。虽然目前还存在一些挑战，比如在极端动作或复杂场景下的细节还不够完美，但这项技术无疑为虚拟内容的创造打开了新的大门。

简单解释像给14岁少年讲一样

想象你在玩一个超级厉害的游戏，你可以用一只魔法镜子看到自己从不同角度跳舞或者跑步。以前，要让游戏里的角色从不同角度看得很清楚，得用很多相机拍好多照片，还要花费很多时间和技术。现在，这个新方法就像是让魔法镜子自己学会了怎么从少量的照片里猜出其他角度的样子，而且还能让动作看起来非常自然，就像真的在跳舞一样。

这个魔法镜子用了一种叫做“扩散模型”的聪明算法，结合一种特别的“相对位置编码”，让它知道不同角度和时间点的变化。它就像是一个能“想象”出多角度、多时间点动作的魔术师，能从少量的照片或视频中，生成完整的多角度动态视频，就像是用一只魔法镜子，把一个人的动作从不同角度同时展现出来。

通过学习大量的例子，它不仅可以让人类的动作变得逼真，还能用在动物或其他东西上。这样一来，制作虚拟人物、动画和特效就变得更简单、更快，而且效果还很棒！虽然还不能完美应对所有复杂场景，但这项技术让虚拟世界变得更加丰富和真实，未来一定会带来很多惊喜！

原文摘要

We present Flex4DHuman, a multi-view video diffusion model that transforms a monocular or sparse multi-view video of a dynamic subject into synchronized dense multi-view videos using only relative camera-pose conditioning. Unlike prior human-centric methods that rely on skeletons, depth maps, normals, or rendered target-view geometry, Flex4DHuman requires no explicit geometry priors and instead conditions generation through relative camera-pose positional encoding. The generated videos can be directly ingested by downstream reconstruction pipelines to create dynamic 4D Gaussian splats. Built on the Wan 2.1 1.3B text-to-video model, Flex4DHuman preserves the backbone architecture and encodes camera and view information through a five-axis positional encoding that extends spatio-temporal RoPE with view indices and continuous SE(3) relative camera geometry. A three-stage curriculum progressively trains the model for pose following, flexible reference-to-target view generation, and temporal rollout. To support temporal rollout, we train with clean historical target-view tokens. We also add multi-view captions to enable test-time text control. Combined with an off-the-shelf 4D Gaussian Splatting stage, our framework lifts monocular static-camera videos into dynamic 4D Gaussian splats. Experiments on DNA-Rendering and ActorsHQ show that Flex4DHuman surpasses prior state-of-the-art methods, while the same formulation generalizes to animal categories after mixed human-animal training. These capabilities make Flex4DHuman a practical step toward scalable 4D content creation from casual monocular videos for simulation, gaming, AR/VR, and video re-shooting.

cs.CV cs.GR

参考文献 (20)

FreeTimeGS: Free Gaussian Primitives at Anytime Anywhere for Dynamic Scene Reconstruction

Yifan Wang, Peishan Yang, Zhen Xu 等

2025 45 引用 ⭐ 高影响力查看解读 →

Diffuman4D: 4D Consistent Human View Synthesis From Sparse-View Videos With Spatio-Temporal Diffusion Models

Yudong Jin, Sida Peng, Xuan Wang 等

2025 12 引用 ⭐ 高影响力查看解读 →

MV-Performer: Taming Video Diffusion Model for Faithful and Synchronized Multi-view Performer Synthesis

Yihao Zhi, Chenghong Li, Hongjie Liao 等

2025 5 引用 ⭐ 高影响力查看解读 →

Cameras as Relative Positional Encoding

Ruilong Li, Brent Yi, Junchen Liu 等

2025 63 引用 ⭐ 高影响力查看解读 →

Wan: Open and Advanced Large-Scale Video Generative Models

Ang Wang, Baole Ai, Bin Wen 等

2025 1855 引用 ⭐ 高影响力查看解读 →

Artemis: Articulated Neural Pets with Appearance and Motion Synthesis

Huazhong WeiYang, LanXu

2022 41 引用 ⭐ 高影响力

DNA-Rendering: A Diverse Neural Actor Repository for High-Fidelity Human-centric Rendering

W. Cheng, Ruixiang Chen, Wanqi Yin 等

2023 113 引用 ⭐ 高影响力查看解读 →

ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models

Lukas Höllein, Aljavz Bovzivc, N. Muller 等

2024 80 引用查看解读 →

GPS-Gaussian: Generalizable Pixel-Wise 3D Gaussian Splatting for Real-Time Human Novel View Synthesis

Shunyuan Zheng, Boyao Zhou, Ruizhi Shao 等

2023 199 引用查看解读 →

Gen3C: 3D-Informed World-Consistent Video Generation with Precise Camera Control

Xuanchi Ren, Tianchang Shen, Jiahui Huang 等

2025 258 引用查看解读 →

MVDream: Multi-view Diffusion for 3D Generation

Yichun Shi, Peng Wang, Jianglong Ye 等

2023 1007 引用查看解读 →

HunyuanWorld 1.0: Generating Immersive, Explorable, and Interactive 3D Worlds from Words or Pixels

HunyuanWorld Team, Zhenwei Wang, Yuhao Liu 等

2025 77 引用查看解读 →

Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion

Xun Huang, Zhengqi Li, Guande He 等

2025 377 引用查看解读 →

Neural Body: Implicit Neural Representations with Structured Latent Codes for Novel View Synthesis of Dynamic Humans

Sida Peng, Yuanqing Zhang, Yinghao Xu 等

2020 858 引用查看解读 →

TrajectoryCrafter: Redirecting Camera Trajectory for Monocular Videos via Diffusion Models

YU Mark, Wenbo Hu, Jinbo Xing 等

2025 80 引用查看解读 →

ViewCrafter: Taming Video Diffusion Models for High-fidelity Novel View Synthesis

Wangbo Yu, Jinbo Xing, Li Yuan 等

2024 346 引用查看解读 →

D-NeRF: Neural Radiance Fields for Dynamic Scenes

Albert Pumarola, Enric Corona, Gerard Pons-Moll 等

2020 1981 引用查看解读 →

Animatable Gaussians: Learning Pose-Dependent Gaussian Maps for High-Fidelity Human Avatar Modeling

Zhe Li, Zerong Zheng, Lizhen Wang 等

2024 253 引用

SynCamMaster: Synchronizing Multi-Camera Video Generation from Diverse Viewpoints

Jianhong Bai, Menghan Xia, Xintao Wang 等

2024 81 引用查看解读 →

BulletTime: Decoupled Control of Time and Camera Pose for Video Generation

Yiming Wang, Qihang Zhang, Shengqu Cai 等

2025 5 引用查看解读 →

Flex4DHuman: Flexible Multi-view Video Diffusion for 4D Human Reconstruction

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

原文摘要

参考文献 (20)

相关论文

JanusMesh: Fast and Zero-Shot 3D Visual Illusion Generation via Cross-Space Denoising

UNIEGO: Proxies as Mediators for Unified Egocentric Video Representation Learning

SSD: Spatially Speculative Decoding Accelerates Autoregressive Image Generation

CalTennis: Large Multi-View Tennis Video Dataset and Benchmark of Monocular-to-3D Pose Estimation

Unified Multimodal Autoregressive Modeling with Shared Context-Visual Tokenizer is Key to Unification

EventDrive: Event Cameras for Vision-Language Driving Intelligence

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样