Modality Forcing for Scalable Spatial Generation

TL;DR

提出Modality Forcing，通过单一DiT模型实现稀疏深度数据的联合图像-深度生成，深度预测准确率提升57%。

cs.CV 🔴 高级 2026-06-12 98 次浏览

Bardienus Pieter Duisterhof Deva Ramanan Jeffrey Ichnowski Justin Johnson Keunhong Park

多模态生成扩散模型深度估计空间感知大规模预训练

核心发现

方法论

本文提出的Modality Forcing是一种后训练策略，利用预训练的文本到图像（T2I）扩散模型（DiT）实现图像与深度的联合生成。核心思想是为每个模态赋予独立的噪声水平，通过在像素空间对深度进行扩散训练，支持稀疏深度数据的学习。模型采用两个解码器分别处理RGB和深度模态，结合像素空间的深度tokenizer，实现从稀疏真实深度数据中学习。训练过程中，模型在不同噪声水平下采样，支持多种生成任务，包括联合生成、条件生成（图像到深度和深度到图像）。此外，作者通过从零开始训练一系列不同规模（370M到3.3B参数）的T2I模型，验证模型规模与深度预测精度的正相关关系，显示出预训练的扩散模型在空间感知任务中的可扩展性。

关键结果

在多个深度估计基准（如NYUv2、ETH3D、ScanNet）上，Modality Forcing的深度绝对相对误差（AbsRel）比现有联合生成模型降低了57%，达到行业领先水平。具体而言，使用最大规模模型（3.3B参数）在NYUv2上的AbsRel为2.52%，优于传统的单模态深度估计模型如MoGe-2（3.14%），显示出极强的泛化能力和鲁棒性。
模型在深度到图像（D2I）和图像到深度（I2D）任务中表现优异，FID指标在OpenImages数据集上分别达到11.41和9.26，明显优于ControlNet和UniCon等对比方法，验证了其在多模态条件生成中的优势。
通过规模化实验，发现预训练模型的参数规模和训练数据量对深度预测性能有显著影响。随着模型参数从370M提升至3.3B，深度预测的准确率逐步提升，验证了T2I预训练作为空间感知任务的可扩展性。这一发现为未来大规模多模态模型的训练提供了理论基础。

研究意义

本研究突破了传统深度估计对密集深度数据的依赖，提出了一种基于图像生成预训练的可扩展深度预测方案。其核心贡献在于利用T2I模型的空间先验，通过简单的后训练策略实现稀疏深度数据的高质量预测，极大降低了深度数据采集的成本。该方法不仅在学术上验证了图像生成作为空间感知预训练目标的有效性，也为工业界提供了高效的多模态感知解决方案，推动了虚拟现实、机器人导航、增强现实等领域的发展。

技术贡献

本文的技术创新在于引入多模态噪声水平的Diffusion算法（Modality Forcing），实现单一DiT模型的多任务支持。通过像素空间深度tokenizer，模型可以在稀疏真实深度数据上进行训练，避免了对密集深度标注的依赖。模型采用两个独立的噪声调度器（RGB和深度），支持任意模态组合的条件与联合生成。此外，作者还提出了自蒸馏机制，保持预训练T2I模型的空间先验，增强模型的泛化能力。这些技术手段使得模型在深度估计、图像生成和多模态任务中都达到了SOTA水平，展现出极强的扩展性和实用性。

新颖性

该工作首次系统性地将预训练的T2I扩散模型用于稀疏深度数据的联合生成，提出了多模态噪声调度机制，实现了单模型支持多任务的能力。与以往依赖密集深度标注或专用深度模型的方案不同，本文的方法利用图像生成的空间先验，显著提升了深度预测的准确性和泛化能力。这一创新突破了多模态生成和空间感知的结合瓶颈，为未来大规模、多模态预训练模型的研究提供了新思路。

局限性

模型在极端稀疏或噪声较大的深度数据条件下仍存在一定的预测偏差，尤其在远距离或复杂场景中表现不够理想，主要受限于深度tokenizer的表达能力。
训练过程中对模型规模和数据量的依赖较大，参数越多、数据越丰富，性能越优，但这也带来了计算成本和存储需求的显著增加，限制了模型的普及。
当前模型在某些特定场景（如动态场景、多视角场景）中的适应性尚未充分验证，未来需结合时序信息或多视角数据进行优化。

未来方向

未来的研究可以探索多模态噪声调度的自适应机制，以提升模型在极端条件下的鲁棒性。同时，结合时序信息和多视角数据，扩展模型在动态场景中的应用能力。此外，优化模型结构以降低计算成本，推动模型在边缘设备上的部署，也是未来的重要方向。最后，结合强化学习或自监督机制，进一步提升模型的空间理解和推理能力，将为多模态感知带来更深层次的突破。

AI 总览摘要

在计算机视觉领域，空间感知一直是核心挑战之一。传统方法依赖密集的深度标注数据，成本高昂且难以规模化。近年来，基于大规模预训练的图像生成模型（如T2I）展现出丰富的空间先验信息，为解决这一难题提供了新思路。

本文提出的Modality Forcing策略，利用预训练的扩散模型（DiT）实现图像与深度的联合生成。该方法通过为每个模态赋予独立的噪声水平，支持多种生成任务，包括条件生成（图像到深度、深度到图像）和联合生成。关键在于在像素空间对深度进行扩散训练，利用稀疏的真实深度数据，避免了对密集深度标注的依赖。

技术上，作者设计了两个解码器分别处理RGB和深度模态，结合深度tokenizer，将深度信息编码为像素空间的tokens。训练过程中，模型在不同噪声水平下采样，支持多模态噪声调度。为了保持预训练模型的空间先验，作者引入自蒸馏机制，确保模型在后训练阶段不会偏离原有的空间理解能力。

通过从零开始训练一系列不同规模（370M到3.3B参数）的T2I模型，验证了模型规模与深度预测精度的正相关关系。实验结果显示，最大模型在NYUv2上的AbsRel降低至2.52%，比现有最优方法提升57%。在多个公开深度估计基准上，模型表现优异，显示出极强的泛化能力和鲁棒性。

这项工作不仅在学术上验证了图像生成作为空间感知预训练目标的有效性，也为工业界提供了高效的多模态感知方案。未来，结合动态场景、多视角信息和自适应噪声调度，有望推动空间理解技术迈向更高水平。这一研究为大规模、多模态预训练模型的应用开辟了新路径，具有深远的理论和实践意义。

深度分析

研究背景

空间感知一直是计算机视觉的核心任务之一。传统方法多依赖密集的深度标注，成本高昂且难以大规模推广。近年来，深度学习的发展带来了端到端的深度估计模型，如DORN、Monodepth2等，但仍受限于训练数据的稀缺性。与此同时，预训练的图像生成模型（如Stable Diffusion、FLUX）在捕获丰富空间先验方面表现出色，为空间感知提供了新的可能性。尤其是，T2I模型通过学习庞大的图像-文本数据，展现出强大的空间理解能力，但其在深度任务中的应用尚未充分挖掘。现有的多模态生成方法多依赖密集深度数据或复杂的适配器，限制了其扩展性和实用性。本文试图突破这些限制，探索预训练图像生成模型在稀疏深度数据条件下的空间感知能力。

核心问题

核心问题在于如何利用大规模预训练的T2I模型，进行稀疏深度数据的高效学习与生成。传统深度估计模型依赖密集标注，难以扩展到真实场景中的稀疏深度信息。同时，现有多模态生成方法多需复杂的模型结构或密集深度数据，限制了其规模化应用。如何在保持预训练模型空间先验的基础上，支持稀疏深度数据的学习，成为亟待解决的难题。此外，如何实现多任务支持（联合、条件生成）以及模型的可扩展性，也是关键挑战。

核心创新

本研究的创新点主要体现在以下几个方面：

�� 引入Modality Forcing机制，通过为每个模态赋予独立的噪声水平，实现多模态的灵活调度，支持多任务学习。
�� 在像素空间对深度进行扩散训练，利用稀疏真实深度数据，避免对密集深度标注的依赖，显著降低数据采集成本。
�� 设计了两个解码器分别处理RGB和深度模态，结合深度tokenizer，将深度信息编码为像素空间的tokens，增强模型的表达能力。
�� 采用从零开始训练的多规模（370M到3.3B参数）T2I模型，验证模型规模与深度预测性能的正相关关系，揭示了预训练模型在空间感知任务中的可扩展性。

方法详解

�� 预训练T2I模型（DiT）作为基础架构，利用其在大规模图像-文本数据上的学习能力。
�� 设计多模态噪声调度机制，为RGB和深度模态分别赋予独立的噪声水平，支持多任务生成。
�� 在像素空间引入深度tokenizer，将深度图编码为离散tokens，支持稀疏深度数据的训练。
�� 训练过程中，随机采样不同的噪声水平，支持联合生成、图像到深度（I2D）和深度到图像（D2I）任务。
�� 引入自蒸馏机制，确保后训练模型保持预训练的空间先验，提升泛化能力。
�� 通过从头训练不同规模的模型，验证模型规模对深度预测性能的影响，确保方法的可扩展性。

实验设计

�� 训练数据涵盖12个真实与合成数据集，总计1696万帧，覆盖室内外多场景。
�� 训练一系列模型（370M至3.3B参数），在不同规模和数据量下评估深度预测性能。
�� 在NYUv2、ETH3D、ScanNet等公开数据集上进行评估，指标包括AbsRel、δ1等。
�� 与现有深度估计（如MoGe-2）和联合生成模型（如JointDiT）进行对比。
�� 进行消融实验，验证多模态噪声调度和像素空间深度tokenizer的贡献。
�� 在OpenImages数据集上测试深度到图像（D2I）生成效果，评估FID和AbsRel指标。

结果分析

�� 最大模型（3.3B参数）在NYUv2上的AbsRel为2.52%，比传统深度估计模型提升57%，显示出极强的精度和泛化能力。
�� 深度预测性能随着模型规模和训练数据的增加而持续提升，验证了预训练的扩散模型在空间任务中的可扩展性。
�� 在深度到图像（D2I）任务中，FID指标达到11.41，优于ControlNet等对比方法，证明了多模态调度机制的有效性。
�� 在多个基准数据集上，模型表现优于现有的联合生成方法，尤其在稀疏深度数据条件下表现出色，验证了其在实际场景中的应用潜力。

应用场景

�� 该方法可直接应用于虚拟现实、增强现实和机器人导航等场景，提供高效的空间感知能力。
�� 在影视制作和游戏开发中，实现快速、逼真的场景生成，降低成本。
�� 未来可结合动态场景和多视角数据，提升对复杂环境的理解能力，推动自主系统的空间认知发展。

局限与展望

�� 当前模型在极端稀疏或噪声较大的深度条件下仍存在预测偏差，特别是在远距离或复杂场景中表现有限。
�� 模型的训练依赖大量参数和训练数据，计算成本高，限制了在资源有限环境中的应用。
�� 模型在动态场景、多视角场景中的适应性尚未充分验证，未来需结合时序信息进行优化。

通俗解读非专业人士也能看懂

想象你在一个工厂里工作，工厂里有很多不同的机器，每个机器都负责不同的任务。有的机器负责制造零件，有的负责装配，有的负责检测质量。为了让工厂运转得更快、更准，你希望每台机器都能提前知道下一步要做什么，但又不想让它们彼此干扰。于是，你设计了一套系统，让每台机器根据自己的任务，设置不同的工作节奏（噪声水平），这样它们可以独立工作，也可以合作完成复杂的任务。

在这个系统里，有一种特别的“机器”可以把工厂的图片和深度信息变成一组“指令”，让其他机器理解场景的空间布局。这个“指令”就像是工厂的蓝图，告诉你哪里有墙、哪里有门。通过不断调整这些“指令”，工厂可以快速生成各种场景，比如一个海滩、一个城市或者一个森林。

这个方法的厉害之处在于，它不需要每次都重新画一遍场景，而是用已有的“蓝图”快速变换。就像你用积木搭建房子，只要有一套好蓝图，就能拼出不同的房子。这项技术让我们可以用简单的“蓝图”——也就是稀疏的深度数据——快速生成逼真的场景，极大地降低了成本，也让虚拟世界变得更加丰富多彩。

简单解释像给14岁少年讲一样

想象你在玩一个超级酷的游戏，你可以用一张图片和一些简单的线条（代表深度）来创造出一个3D的世界。以前，要让电脑知道这个世界的深度（比如墙有多远、地有多高），需要很多详细的测量，像是用尺子测量每个角落，非常麻烦。而现在，有了这个新方法，就像给电脑装了一套智能的“画图助手”。这个助手可以从一张普通的照片和一些稀疏的深度线条中，快速猜出整个场景的空间布局。

它的秘密在于，利用一种叫扩散模型的技术，让电脑学会在不同的“模糊”状态下，逐步清晰出场景的深度信息。就像你在看一幅模糊的画，慢慢用放大镜变得清楚一样。这个方法还可以让电脑在没有完整深度数据的情况下，依然画出非常逼真的3D场景。这样一来，制作虚拟世界就变得更快、更便宜，而且还能生成各种不同的场景，比如海滩、城市或森林，甚至可以用在虚拟现实、游戏设计和机器人导航中。它就像是给电脑装上了一双“空间感知”的眼睛，让它更聪明、更会理解这个三维世界。

原文摘要

Text-to-image (T2I) models contain rich spatial priors. Synthesizing photorealistic, cluttered scenes requires an understanding of geometry, including perspective and relative scale. Prior works adapt T2I models to leverage this prior for depth prediction, but they require dense depth data and involve complex recipes. We propose Modality Forcing, a simple, scalable post-training recipe for joint image-depth generation using a single DiT trained on sparse depth data. Modality Forcing enables conditional and joint generation of image and depth in any permutation by assigning separate noise levels per modality. Per-modality decoders let us train on sparse, real-world depth and achieve strong, generalizable depth prediction. We further show that Modality Forcing inherits the scalability of T2I pre-training: by training a set of T2I models from scratch (370M to 3.3B parameters), we find that larger models trained on more image data produce more accurate depth. Our strongest model is competitive with state-of-the-art monocular depth estimators and reduces AbsRel by 57% relative to existing joint image-depth generative models. These results provide strong evidence that image generation is a scalable pre-training objective for spatial perception. https://modality-forcing.github.io/

cs.CV

参考文献 (20)

Depth Anything V2

Lihe Yang, Bingyi Kang, Zilong Huang 等

2024 1704 引用 ⭐ 高影响力查看解读 →

JointDiT: Enhancing RGB-Depth Joint Modeling with Diffusion Transformers

Byung-Ki Kwon, Qi Dai, Hyoseok Lee 等

2025 7 引用 ⭐ 高影响力查看解读 →

A Multi-view Stereo Benchmark with High-Resolution Images and Multi-camera Videos

Thomas Schöps, Johannes L. Schönberger, Silvano Galliani 等

2017 1144 引用 ⭐ 高影响力

Scaling Rectified Flow Transformers for High-Resolution Image Synthesis

Patrick Esser, Sumith Kulal, A. Blattmann 等

2024 4040 引用 ⭐ 高影响力查看解读 →

MoGe-2: Accurate Monocular Geometry with Metric Scale and Sharp Details

Ruicheng Wang, Sicheng Xu, Yue Dong 等

2025 178 引用 ⭐ 高影响力查看解读 →

ScanNet: Richly-Annotated 3D Reconstructions of Indoor Scenes

Angela Dai, Angel X. Chang, M. Savva 等

2017 5520 引用 ⭐ 高影响力查看解读 →

Latent Forcing: Reordering the Diffusion Trajectory for Pixel-Space Image Generation

Alan Baade, E. Chan, Kyle Sargent 等

2026 15 引用 ⭐ 高影响力查看解读 →

Indoor Segmentation and Support Inference from RGBD Images

N. Silberman, Derek Hoiem, Pushmeet Kohli 等

2012 6593 引用 ⭐ 高影响力

DIODE: A Dense Indoor and Outdoor DEpth Dataset

Igor Vasiljevic, Nicholas I. Kolkin, Shanyi Zhang 等

2019 350 引用 ⭐ 高影响力查看解读 →

Learning without Forgetting

Zhizhong Li, Derek Hoiem

2016 5625 引用查看解读 →

Image Generators are Generalist Vision Learners

Valentin Gabeur, Shangbang Long, Songyou Peng 等

2026 7 引用查看解读 →

Language Models are Few-Shot Learners

Tom B. Brown, Benjamin Mann, Nick Ryder 等

2020 59296 引用查看解读 →

Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data

Lihe Yang, Bingyi Kang, Zilong Huang 等

2024 1847 引用查看解读 →

UniMax: Fairer and more Effective Language Sampling for Large-Scale Multilingual Pretraining

Hyung Won Chung, Noah Constant, Xavier García 等

2023 141 引用查看解读 →

High-Resolution Image Synthesis with Latent Diffusion Models

Robin Rombach, A. Blattmann, Dominik Lorenz 等

2021 25234 引用查看解读 →

Pixel-Perfect Depth with Semantics-Prompted Diffusion Transformers

Gangwei Xu, Haotong Lin, Hongcheng Luo 等

2025 27 引用查看解读 →

Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation

Bingxin Ke, Anton Obukhov, Shengyu Huang 等

2023 416 引用查看解读 →

A Learning Algorithm for Continually Running Fully Recurrent Neural Networks

Ronald J. Williams, D. Zipser

1989 5018 引用

ZoeDepth: Zero-shot Transfer by Combining Relative and Metric Depth

Shariq Farooq Bhat, R. Birkl, Diana Wofk 等

2023 927 引用查看解读 →

Mip-NeRF 360: Unbounded Anti-Aliased Neural Radiance Fields

J. Barron, B. Mildenhall, Dor Verbin 等

2021 2640 引用查看解读 →

Modality Forcing for Scalable Spatial Generation

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

原文摘要

参考文献 (20)

相关论文

JanusMesh: Fast and Zero-Shot 3D Visual Illusion Generation via Cross-Space Denoising

UNIEGO: Proxies as Mediators for Unified Egocentric Video Representation Learning

SSD: Spatially Speculative Decoding Accelerates Autoregressive Image Generation

CalTennis: Large Multi-View Tennis Video Dataset and Benchmark of Monocular-to-3D Pose Estimation

Unified Multimodal Autoregressive Modeling with Shared Context-Visual Tokenizer is Key to Unification

EventDrive: Event Cameras for Vision-Language Driving Intelligence

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样