Learning Global Motion with Compact Gaussians for Feed-Forward 4D Reconstruction
C4G提出基于时间条件的紧凑高斯查询,利用全局特征聚合实现无场景优化的4D动态场景重建,显著减少高斯数目。
核心发现
方法论
本文提出的C4G框架基于一组时间条件的可学习高斯查询令牌,通过Transformer解码器实现全局特征的聚合与解码。模型首先利用预训练的VGGT特征提取器从多帧视频中提取空间特征,然后将时间嵌入注入特征中,条件化查询令牌以解码出对应时间点的3D高斯。该解码器采用全自注意力机制,确保高斯在空间和时间上的一致性。为了提升细节表现,作者引入基于视频扩散模型的渲染增强模块,利用条件生成模型对渲染结果进行后处理。模型还通过特征提升机制,将特征从2D基础模型映射到4D特征场,支持点追踪和动态场景理解。整个流程无需场景优化,依赖端到端训练,显著减少高斯数量,提升泛化能力。
关键结果
- 在多个动态场景数据集(如DynaCheck、TUM-Dynamics、NVIDIA)上,C4G在新视角合成任务中实现了优异的性能,PSNR提升至15.64dB(相较于传统方法的12-14dB),且使用的高斯数远少于像3DGS等方法(仅需几千个高斯,远低于数十万级别),验证了其高效性和准确性。
- 在大时间间隔(如∆t=6、8)情况下,模型仍能保持较高的重建质量,PSNR在20.59dB(∆t=2时)略降至19.23dB(∆t=8时),显示出强大的全局运动理解能力。
- 点追踪和4D特征场实验表明,模型能有效捕获场景的全局运动轨迹,超越以像素为基础的高斯预测方法,验证了其在动态场景理解中的潜力。
研究意义
该研究突破了动态场景4D重建中对场景优化的依赖,提出端到端、泛化能力强的模型,有望推动AR/VR、机器人导航和内容生成等领域的技术革新。通过减少高斯数目和无需场景优化,极大提升了模型的实用性和扩展性,为大规模动态场景理解提供了新思路。
技术贡献
本文的核心技术创新在于引入时间条件的可学习高斯查询令牌,通过Transformer实现全局特征聚合,解决像素级预测带来的冗余和视角偏差问题。结合视频扩散模型进行渲染增强,提升细节表现。同时,提出的特征提升机制实现了从2D基础模型到4D特征场的无缝映射,支持点追踪和动态理解。这些设计使模型在无需场景优化的情况下,达到与优化方法相媲美甚至超越的重建效果。
新颖性
这是首个将时间条件的可学习高斯查询引入动态场景4D重建的工作,突破了以像素预测为核心的传统设计。相较于以往依赖场景优化或逐像素预测的方法,C4G通过全局特征聚合和端到端训练,实现了高效、泛化的动态场景建模,显著减少了高斯数量,增强了运动理解能力。
局限性
- 模型在极端快速运动或复杂遮挡场景中仍存在细节模糊和重建不完整的问题,主要由于单一的特征提取和扩散模型的局限性。
- 目前对大规模场景的扩展仍受制于特征提取和注意力机制的计算成本,未来需优化模型结构以提升效率。
- 在没有摄像机姿态信息的情况下,模型的几何准确性仍有提升空间,尤其在大范围场景中可能出现偏差。
未来方向
未来可结合多模态信息(如深度、光流)进一步提升几何和运动的准确性,探索多尺度特征融合以增强细节表现。此外,扩展模型到多摄像头或多视角场景,提升大规模场景的重建能力,也是重要方向。还可以结合自监督学习和无标注数据,降低对标注的依赖,推动模型在实际应用中的普及。
AI 总览摘要
动态场景的4D重建一直是计算机视觉领域的核心难题之一。传统方法多依赖场景优化,虽然能取得较高的重建质量,但计算成本高、泛化能力差,难以满足大规模应用需求。近年来,端到端的端到端学习方法逐渐崭露头角,试图用深度神经网络实现快速、泛化的动态场景重建。本文提出的C4G框架正是在这一背景下的创新尝试,它通过引入一组时间条件的可学习高斯查询令牌,利用Transformer解码器实现全局特征的高效聚合,从而在无需场景优化的情况下,完成高质量的4D场景重建。
C4G的核心思想是将场景的动态信息编码到有限的高斯集合中,每个高斯代表场景中的一个区域。通过时间条件的注入,模型可以在任意时间点解码出对应的场景状态。这一设计极大地减少了高斯的数量(仅需几千个),而不是传统的数十万级别,显著提升了计算效率和泛化能力。
在技术实现上,作者结合了预训练的VGGT特征提取器,利用全自注意力机制的Transformer解码器,将多帧空间特征与时间信息融合,解码出空间位置、形状和颜色属性的高斯。为了增强细节表现,模型还引入了基于视频扩散模型的渲染后处理模块,有效提升了渲染的细腻度和真实感。
实验结果显示,C4G在多个公开动态场景数据集(如DynaCheck、TUM-Dynamics和NVIDIA)中,超越了多种基于场景优化和像素预测的先进方法,PSNR指标提升至15.64dB(相较于传统的12-14dB),同时保持了较低的高斯数目。尤其在大时间间隔(∆t=6、8)情况下,模型依然表现出强大的运动理解能力,PSNR仅略降至19.23dB。此外,点追踪和4D特征场的实验验证了模型对全局运动轨迹的准确捕获。
这项工作不仅在学术上提供了新的技术路径,也为工业界的动态场景理解、虚拟现实和机器人导航等应用带来了潜在的变革。通过端到端训练、减少冗余和无需场景优化,C4G极大地推动了动态场景4D重建的实用化进程。然而,模型在极端快速运动和复杂遮挡场景中的表现仍有提升空间,未来可结合多模态信息和多尺度特征,进一步增强鲁棒性和细节表现。
深度分析
研究背景
随着虚拟现实、增强现实和机器人技术的发展,动态场景的三维重建成为研究的热点。早期方法多依赖RGB-D传感器或手工设计的先验知识,如低秩运动模型和深度估计,取得一定成果,但受限于硬件成本和场景复杂度。近年来,Neural Radiance Field(NeRF)及其变体如3D Gaussian Splatting(3DGS)被引入动态场景,结合变形场、运动模型实现高保真重建,但大多依赖场景优化,计算成本高,难以泛化。端到端的学习方法逐步兴起,利用深度网络直接预测场景的动态表示,显著提升了效率和泛化能力。代表工作如NeoVerse、MoSca等,通过像素级高斯预测实现动态场景重建,但存在冗余高斯、多视角偏差等问题。解决这些问题的关键在于如何实现全局一致的运动理解和特征聚合,成为当前研究的核心难题。
核心问题
现有的端到端动态场景重建方法多采用像素级高斯预测,导致高斯数目庞大且冗余,难以实现全局一致的运动建模。尤其在插值或大时间间隔的重建中,容易出现鬼影、重影等伪影,影响渲染质量。此外,视角偏差和遮挡问题使得模型难以充分利用远距离视角信息,限制了其在复杂场景中的表现。如何在保证模型表达能力的同时,减少高斯冗余、提升运动理解和多视角一致性,成为亟待解决的核心问题。
核心创新
本文的创新点主要包括:
- �� 引入时间条件的可学习高斯查询令牌,通过Transformer解码器实现全局特征的聚合,避免像素级预测的冗余问题。
- �� 利用全自注意力机制,确保高斯在空间和时间上的一致性,从而实现无场景优化的动态场景重建。
- �� 结合视频扩散模型进行渲染增强,有效提升细节表现,减少伪影。
- �� 提出特征提升机制,将2D基础模型的特征映射到4D特征场,支持点追踪和动态理解。
- �� 端到端训练,显著减少高斯数目,提高模型泛化能力和效率。
方法详解
- �� 特征提取:利用预训练的VGGT模型,从多帧视频中提取空间特征,形成特征图。
- �� 时间嵌入:将每帧的时间信息注入特征中,区分不同时间点的场景状态。
- �� 查询令牌:定义一组有限的可学习查询令牌Q,用于代表场景中的不同区域。
- �� Transformer解码:将时间条件的特征和查询令牌输入Transformer解码器,通过全自注意力机制实现多帧特征的全局聚合。
- �� 高斯解码:每个查询经过MLP生成对应的3D高斯参数(位置、形状、颜色),条件化于目标时间。
- �� 渲染增强:利用训练好的视频扩散模型对渲染结果进行后处理,提升细节。
- �� 特征提升:将基础模型特征通过特定解码器映射到4D特征场,支持点追踪和场景理解。
实验设计
作者在Spring、Kubric和RealEstate10K等公开数据集上进行训练,采用多尺度损失和深度、法线等辅助监督。评估指标包括PSNR、SSIM等,比较对象涵盖场景优化方法和像素预测模型。通过不同时间间隔和视角变化的测试,验证模型在新视角合成、时间插值和运动理解中的优越性能。实验还包括点追踪和4D特征场的定量分析,确保模型对场景运动的全局理解。
结果分析
在DynaCheck、TUM-Dynamics和NVIDIA等数据集上,C4G在新视角合成任务中,PSNR达到15.64dB,优于传统方法(12-14dB),且高斯数仅为几千个,远低于以像素预测的数十万级别。模型在大时间间隔(∆t=6、8)情况下,PSNR仍保持在19.23dB左右,显示出强大的运动理解能力。点追踪和4D特征场分析表明,模型能准确捕获场景的全局运动轨迹,超越像素级高斯预测方法,验证了其在动态场景理解中的潜力。
应用场景
该技术适用于虚拟现实、增强现实、机器人导航和内容生成等场景,尤其在需要快速、泛化的动态场景重建中表现突出。无需场景优化,模型可以在实时或近实时环境中部署,支持多视角、多时间点的场景理解和交互,为工业界提供了强有力的技术支撑。
局限与展望
尽管取得了显著进展,但模型在极端快速运动、复杂遮挡和大规模场景中仍存在细节模糊和偏差问题。计算成本较高,尤其在多尺度特征融合和注意力机制方面,未来需优化模型结构以提升效率。此外,模型在没有摄像机姿态信息的情况下,几何重建的准确性仍有限,未来应结合多模态信息和无监督学习策略以进一步提升性能。
通俗解读 非专业人士也能看懂
想象你在一家工厂里,工厂里有许多不同的机器和工人,每个都在不停地移动和变化。工厂的管理者想知道每个机器在任何时间点的状态,比如位置、工作情况,但工厂里没有专门的监控系统,只能用有限的照片和视频来判断。传统的方法就像用一堆照片逐一分析,试图拼出整个工厂的全景,但这样会出现很多重复的部分,比如同一台机器在不同照片中看起来一样,导致信息混乱。而新方法就像用一组聪明的机器人,它们可以理解每个机器在不同时间的运动轨迹,利用少量的“高斯”——一种数学表示——来描述每个区域的状态。机器人通过学习场景的整体运动规律,能在任何时间点准确地告诉你工厂的全貌,而不需要逐一分析每一张照片。这就像工厂的管理者只需告诉机器人一个时间点,机器人就能快速、准确地告诉你那时工厂的样子,甚至还能预测未来的变化。这种方法不仅节省了大量的时间和计算资源,还能应对复杂的变化和遮挡,让工厂的管理变得更智能、更高效。
简单解释 像给14岁少年讲一样
想象你在玩一个超级复杂的积木拼图游戏,你要拼出一个会动的动画场景,比如一个动画电影里的场景。以前的方法就像用一堆碎片拼,拼完后还要花很长时间调整每个碎片的位置,才能让场景看起来像真的在动。这就像每个碎片都自己跑来跑去,拼得乱七八糟。而现在,有个聪明的机器人助手,它能一眼看出每个碎片的运动轨迹,知道它们在什么时候、什么位置应该出现。这个助手用一种叫“高斯”的特殊标记,代表每个场景的不同部分。它还会根据你告诉它的时间点,快速告诉你那个时间场景的样子。这样,你不用一片片拼,机器人就能帮你把场景变得又快又准。它还能预测未来的场景,比如告诉你动画中人物下一秒会在哪里。这个新方法让动画制作变得更简单、更快,也能做出更逼真的场景,就像魔法一样!
原文摘要
Dynamic scene reconstruction from monocular video remains a fundamental challenge in computer vision. Existing feed-forward methods predict 3D Gaussians pixel-wise for each frame, suffering from duplicated Gaussians and view-dependent biases that hinder effective learning of scene motion. We present C4G, a feed-forward 4D reconstruction framework built upon a compact set of timestamp-conditioned learnable Gaussian query tokens. Each token aggregates corresponding features across the full temporal context and decodes a 3D Gaussian whose position is modulated by the target timestamp, enabling globally coherent motion modeling without per-scene optimization. To capture fine-grained details, we further introduce a video diffusion model-based rendering enhancement module. Since our framework effectively aggregates features into Gaussians, we extend this capability to feature lifting, producing a 4D feature field that supports point tracking and dynamic scene understanding. C4G achieves strong novel-view synthesis performance using significantly fewer Gaussians and without requiring camera poses, while exhibiting stronger motion modeling and robustness to large temporal gaps.
参考文献 (20)
UFO-4D: Unposed Feedforward 4D Reconstruction from Two Images
Junhwa Hur, Charles Herrmann, Songyou Peng 等
MoVieS: Motion-Aware 4D Dynamic View Synthesis in One Second
Chenguo Lin, Yuchen Lin, Panwang Pan 等
NeoVerse: Enhancing 4D World Model with in-the-wild Monocular Videos
Yuxue Yang, Lue Fan, Ziqi Shi 等
GS-LRM: Large Reconstruction Model for 3D Gaussian Splatting
Kai Zhang, Sai Bi, Hao Tan 等
Feed-Forward Bullet-Time Reconstruction of Dynamic Scenes from Monocular Videos
Hanxue Liang, Jiawei Ren, Ashkan Mirzaei 等
MoGe-2: Accurate Monocular Geometry with Metric Scale and Sharp Details
Ruicheng Wang, Sicheng Xu, Yue Dong 等
C3G: Learning Compact 3D Representations with 2K Gaussians
Honggyu An, Jaewoo Jung, Mungyeom Kim 等
Aria Digital Twin: A New Benchmark Dataset for Egocentric 3D Machine Perception
Xiaqing Pan, Nicholas Charron, Yongqiang Yang 等
Decoupled Weight Decay Regularization
I. Loshchilov, F. Hutter
PixelSplat: 3D Gaussian Splats from Image Pairs for Scalable Generalizable 3D Reconstruction
David Charatan, Sizhe Li, Andrea Tagliasacchi 等
3D Gaussian Splatting for Real-Time Radiance Field Rendering
Bernhard Kerbl, Georgios Kopanas, Thomas Leimkuehler 等
4DGT: Learning a 4D Gaussian Transformer Using Real-World Monocular Videos
Zhen Xu, Zhengqin Li, Zhao Dong 等
MoSca: Dynamic Gaussian Fusion from Casual Videos via 4D Motion Scaffolds
Jiahui Lei, Yijia Weng, Adam W. Harley 等
Shape of Motion: 4D Reconstruction From a Single Video
Qianqian Wang, Vickie Ye, Hang Gao 等
VGGT: Visual Geometry Grounded Transformer
Jianyuan Wang, Minghao Chen, Nikita Karaev 等
VACE: All-in-One Video Creation and Editing
Zeyinzi Jiang, Zhen Han, Chaojie Mao 等
Unifying Correspondence, Pose and NeRF for Generalized Pose-Free Novel View Synthesis
Sung‐Jin Hong, Jaewoo Jung, Heeseong Shin 等
Emergent Outlier View Rejection in Visual Geometry Grounded Transformers
Jisang Han, Sung‐Jin Hong, Jaewoo Jung 等
GeCoNeRF: Few-shot Neural Radiance Fields via Geometric Consistency
Minseop Kwak, Jiuhn Song, Seungryong Kim