End-to-End Training for Unified Tokenization and Latent Denoising

TL;DR

UNITE通过统一的自编码器实现令牌化和潜在扩散，ImageNet上FID达到2.12。

cs.CV 🔴 高级 2026-03-24 41 次浏览

Shivam Duggal Xingjian Bai Zongze Wu Richard Zhang Eli Shechtman Antonio Torralba Phillip Isola William T. Freeman

潜在扩散模型自编码器令牌化生成模型图像合成

核心发现

方法论

本文提出了一种名为UNITE的自编码器架构，用于统一令牌化和潜在扩散。UNITE的核心组件是生成编码器，通过权重共享同时充当图像令牌化器和潜在生成器。该方法的关键见解在于，令牌化和生成可以视为在不同条件下的相同潜在推理问题：令牌化从完全观察到的图像中推断潜在变量，而生成则从噪声中推断潜在变量，并结合文本或类别条件。通过这种方式，UNITE实现了单阶段训练过程，使用相同的生成编码器进行两次前向传递来联合优化这两项任务。

关键结果

在ImageNet 256 x 256数据集上，UNITE的Base模型和Large模型分别达到了2.12和1.73的FID分数，接近当前最先进水平。
UNITE在图像和分子模态上均表现出色，无需对抗性损失或预训练编码器（如DINO）。
通过表示对齐和压缩的视角分析生成编码器，验证了从头开始的单阶段联合训练的可行性。

研究意义

UNITE的提出在学术界和工业界具有重要意义。学术上，它简化了潜在扩散模型的训练过程，消除了复杂的分阶段训练需求，推动了生成模型的进一步发展。工业上，UNITE的高效训练过程和出色的性能使其在图像合成和分子生成等领域具有广泛的应用潜力。此外，该方法不依赖于对抗性损失或预训练编码器，降低了实现的复杂性和计算成本。

技术贡献

UNITE的技术贡献在于其创新的自编码器架构和单阶段训练方法。与现有的潜在扩散模型相比，UNITE通过权重共享实现了令牌化和生成的统一，简化了训练流程。此外，UNITE展示了在不使用对抗性损失的情况下达到接近最先进水平的能力，为生成模型的设计提供了新的思路和可能性。

新颖性

UNITE的创新之处在于其统一的自编码器架构和单阶段训练方法。这种方法首次将令牌化和生成视为相同的潜在推理问题，并通过共享参数实现了两者的联合优化，与现有方法相比具有显著的简化和效率提升。

局限性

UNITE在某些特定场景下可能表现不佳，例如在极端复杂的图像或分子生成任务中，可能需要更高的计算资源。
由于不使用对抗性损失，UNITE在某些情况下可能无法达到对抗性生成模型的细节水平。
在某些特定的应用场景中，可能需要进一步的微调以达到最佳性能。

未来方向

未来的研究方向包括探索UNITE在更多模态上的应用，以及进一步优化其生成质量和效率。此外，可以研究如何在更大规模的数据集上应用UNITE，并探索其在实时生成任务中的潜力。社区也可以考虑将UNITE与其他生成模型相结合，以实现更复杂的生成任务。

AI 总览摘要

潜在扩散模型（LDMs）在潜在空间中操作，以实现高保真合成。然而，训练最先进的LDMs需要复杂的分阶段过程：必须先训练一个令牌化器，然后才能在冻结的潜在空间中训练扩散模型。我们提出了UNITE——一种用于统一令牌化和潜在扩散的自编码器架构。UNITE由一个生成编码器组成，通过权重共享同时充当图像令牌化器和潜在生成器。我们的关键见解是，令牌化和生成可以视为在不同条件下的相同潜在推理问题：令牌化从完全观察到的图像中推断潜在变量，而生成则从噪声中推断潜在变量，并结合文本或类别条件。基于这一点，我们引入了一种单阶段训练过程，通过两次前向传递通过相同的生成编码器来联合优化这两项任务。共享的参数使梯度能够共同塑造潜在空间，鼓励形成“共同的潜在语言”。

在图像和分子模态上，UNITE在不使用对抗性损失或预训练编码器（如DINO）的情况下，达到了接近最先进水平的性能，在ImageNet 256 x 256数据集上的Base和Large模型分别达到了2.12和1.73的FID分数。我们进一步通过表示对齐和压缩的视角分析了生成编码器。这些结果表明，从头开始的令牌化和生成的单阶段联合训练是可行的。

然而，UNITE在某些特定场景下可能表现不佳，例如在极端复杂的图像或分子生成任务中，可能需要更高的计算资源。由于不使用对抗性损失，UNITE在某些情况下可能无法达到对抗性生成模型的细节水平。在某些特定的应用场景中，可能需要进一步的微调以达到最佳性能。

深度分析

研究背景

潜在扩散模型（LDMs）近年来在生成模型领域引起了广泛关注。LDMs通过在学习到的潜在空间中操作，实现了高保真的图像和数据合成。传统的LDMs训练过程通常需要复杂的分阶段方法：首先训练一个令牌化器，然后在冻结的潜在空间中训练扩散模型。这种方法虽然有效，但由于需要多个阶段的训练，导致了较高的计算成本和复杂性。此外，现有的方法通常依赖于对抗性损失或预训练编码器（如DINO），进一步增加了实现的难度。因此，如何简化LDMs的训练过程，降低计算成本，同时保持或提升生成质量，成为了一个亟待解决的问题。

核心问题

核心问题在于现有潜在扩散模型的训练复杂性和计算成本。传统方法需要先训练一个令牌化器，然后才能在冻结的潜在空间中训练扩散模型，这种分阶段训练方法不仅耗时且复杂，还可能导致潜在空间的次优表示。此外，依赖于对抗性损失或预训练编码器的方法进一步增加了实现的难度和计算成本。因此，如何在不依赖于这些复杂机制的情况下，实现高效的令牌化和生成过程，成为了一个重要的研究课题。

核心创新

UNITE的核心创新在于其统一的自编码器架构和单阶段训练方法。 • 生成编码器：通过权重共享同时充当图像令牌化器和潜在生成器，简化了训练流程。 • 单阶段训练：通过两次前向传递通过相同的生成编码器来联合优化令牌化和生成任务，消除了复杂的分阶段训练需求。 • 潜在推理：将令牌化和生成视为在不同条件下的相同潜在推理问题，鼓励形成“共同的潜在语言”。这些创新显著简化了潜在扩散模型的训练过程，降低了计算成本，并在不依赖对抗性损失的情况下实现了高质量的生成。

方法详解

UNITE的方法详解如下： • 生成编码器：通过权重共享同时充当图像令牌化器和潜在生成器。输入为图像或噪声，输出为潜在表示。 • 单阶段训练：通过两次前向传递通过相同的生成编码器来联合优化令牌化和生成任务。第一次前向传递用于令牌化，从完全观察到的图像中推断潜在变量。第二次前向传递用于生成，从噪声中推断潜在变量，并结合文本或类别条件。 • 参数共享：共享的参数使梯度能够共同塑造潜在空间，鼓励形成“共同的潜在语言”。 • 优化目标：联合优化令牌化和生成任务的损失函数，确保两者的协同进化。

实验设计

实验设计包括在ImageNet 256 x 256数据集上进行训练和评估。使用的基线包括现有的最先进潜在扩散模型。评估指标主要为FID分数，用于衡量生成图像的质量。关键超参数包括生成编码器的结构和训练过程中的学习率。实验还包括消融研究，以验证生成编码器的表示对齐和压缩能力。

结果分析

实验结果表明，UNITE在ImageNet 256 x 256数据集上的Base模型和Large模型分别达到了2.12和1.73的FID分数，接近当前最先进水平。消融研究显示，生成编码器在表示对齐和压缩方面具有显著优势。此外，UNITE在不使用对抗性损失或预训练编码器的情况下，仍能实现高质量的生成，验证了其单阶段训练方法的有效性。

应用场景

UNITE在图像合成和分子生成等领域具有广泛的应用潜力。直接应用场景包括高质量图像生成、分子结构设计等。由于其简化的训练过程和出色的性能，UNITE在工业界的图像处理和药物研发等领域具有重要影响。

局限与展望

尽管UNITE在多个方面表现出色，但仍存在一些局限性。例如，在极端复杂的图像或分子生成任务中，可能需要更高的计算资源。此外，由于不使用对抗性损失，UNITE在某些情况下可能无法达到对抗性生成模型的细节水平。在某些特定的应用场景中，可能需要进一步的微调以达到最佳性能。未来的研究可以集中在优化生成质量和效率，以及探索更多的应用模态。

通俗解读非专业人士也能看懂

想象一下，你有一个可以同时制作和包装糖果的机器。传统的方法是先用一台机器制作糖果，然后用另一台机器包装，这样做虽然有效，但需要两台机器和更多的时间。而UNITE就像是一台既能制作又能包装的多功能机器。它通过共享内部的零件，同时完成这两项任务，大大简化了整个过程。就像这台机器一样，UNITE通过共享生成编码器的权重，同时进行令牌化和生成，从而简化了训练过程。它不需要额外的对抗性机制或预训练步骤，就能高效地产出高质量的结果。想象一下，这台机器不仅能制作糖果，还能根据你的口味偏好调整糖果的味道和形状，这就是UNITE在不同条件下进行潜在推理的能力。它能根据输入的不同条件（比如图像或噪声）灵活调整输出，确保每次都能得到你想要的结果。

简单解释像给14岁少年讲一样

嘿，小伙伴们！想象一下你有一个超级酷的机器人，它能同时做两件事：它能把你最喜欢的漫画书变成数字版，还能根据你的描述画出新的漫画角色！传统的方法就像需要两个不同的机器人，一个负责扫描漫画，另一个负责画画。而我们的UNITE机器人就像一个全能的艺术家，它能同时完成这两件事！它有一个神奇的“生成编码器”，就像是它的大脑，通过共享内部的“思维”，它可以同时理解漫画的内容和创造新的角色。这就像你在玩游戏时，角色既能打怪又能建造房子，一样的简单高效！而且，它不需要额外的帮助就能做到这一切，真是太酷了，对吧？所以，下次你想要一个新的漫画角色，记得找我们的UNITE机器人，它一定不会让你失望的！

术语表

Latent Diffusion Model (潜在扩散模型)

一种在学习到的潜在空间中操作的生成模型，能够实现高保真合成。

用于生成高质量的图像和数据。

Autoencoder (自编码器)

一种神经网络架构，用于学习数据的有效编码。

UNITE使用自编码器架构来实现令牌化和潜在生成。

Tokenization (令牌化)

将输入数据转换为一组令牌的过程，便于后续处理。

在UNITE中，令牌化是生成编码器的一个功能。

Generative Encoder (生成编码器)

在UNITE中同时充当图像令牌化器和潜在生成器的核心组件。

通过权重共享实现令牌化和生成的统一。

FID (Fréchet Inception Distance)

用于评估生成图像质量的指标，数值越低表示质量越高。

用于评估UNITE在ImageNet数据集上的性能。

Weight Sharing (权重共享)

在不同任务或模型组件之间共享相同的参数，以提高效率。

UNITE通过权重共享实现令牌化和生成的统一。

Latent Space (潜在空间)

数据在经过编码器转换后的表示空间，用于生成模型的操作。

UNITE在潜在空间中进行令牌化和生成。

Adversarial Loss (对抗性损失)

在生成对抗网络中用于训练生成器和判别器的损失函数。

UNITE不依赖对抗性损失来实现高质量生成。

Pretrained Encoder (预训练编码器)

在大规模数据集上预先训练的编码器，用于提高模型性能。

UNITE在不使用预训练编码器的情况下实现了高质量生成。

Representation Alignment (表示对齐)

确保不同数据模态的表示在潜在空间中对齐，以提高模型性能。

用于分析UNITE生成编码器的性能。

Compression (压缩)

减少数据表示的冗余以提高效率。

用于分析UNITE生成编码器的性能。

Single-stage Training (单阶段训练)

不需要分阶段的训练方法，简化了模型的训练过程。

UNITE通过单阶段训练实现令牌化和生成的联合优化。

Common Latent Language (共同的潜在语言)

通过共享参数在潜在空间中形成的统一表示。

UNITE通过共享参数鼓励形成共同的潜在语言。

Ablation Study (消融研究)

通过移除或修改模型组件来评估其对整体性能的影响。

用于验证UNITE生成编码器的表示对齐和压缩能力。

Text or Class Conditioning (文本或类别条件)

在生成任务中使用文本或类别信息来指导生成过程。

UNITE在生成任务中结合文本或类别条件进行潜在推理。

开放问题这项研究留下的未解疑问

1 如何在更大规模的数据集上应用UNITE？现有的实验主要集中在ImageNet 256 x 256数据集上，虽然结果令人鼓舞，但在更大规模的数据集上，UNITE的性能和效率仍需验证。需要进一步的研究来解决潜在的计算资源限制和训练时间问题。
2 在极端复杂的图像或分子生成任务中，UNITE的性能如何？虽然UNITE在常规任务中表现出色，但在更复杂的生成任务中，其性能和效率仍需进一步探索。可能需要更高的计算资源或进一步的模型优化。
3 如何在不使用对抗性损失的情况下，进一步提升生成细节水平？UNITE在不依赖对抗性损失的情况下实现了高质量生成，但在某些情况下可能无法达到对抗性生成模型的细节水平。需要探索新的方法来提高生成细节。
4 UNITE在实时生成任务中的潜力如何？现有的研究主要集中在离线生成任务上，UNITE在实时生成任务中的性能和效率仍需验证。需要进一步的研究来解决潜在的延迟和计算资源问题。
5 如何将UNITE与其他生成模型相结合，以实现更复杂的生成任务？现有的研究主要集中在UNITE自身的性能上，将其与其他生成模型相结合可能会带来新的可能性和挑战。需要探索如何有效地结合不同模型的优势。

应用场景

近期应用

高质量图像生成

UNITE可以用于生成高质量的图像，适用于广告、影视制作等领域。其简化的训练过程和出色的性能使其在这些领域具有重要影响。

分子结构设计

在药物研发中，UNITE可以用于生成新的分子结构，帮助科学家发现新的药物。其高效的生成过程和灵活的条件推理能力使其在这一领域具有广泛的应用潜力。

图像处理

UNITE可以用于图像处理任务，如图像修复和风格转换。其高质量的生成能力和简化的训练过程使其在这一领域具有重要影响。

远期愿景

实时生成应用

UNITE在实时生成任务中的潜力值得探索，如实时图像生成和增强现实应用。需要解决潜在的延迟和计算资源问题。

跨模态生成

将UNITE与其他生成模型相结合，探索跨模态生成的可能性，如图像到文本生成。需要探索如何有效地结合不同模型的优势。

原文摘要

Latent diffusion models (LDMs) enable high-fidelity synthesis by operating in learned latent spaces. However, training state-of-the-art LDMs requires complex staging: a tokenizer must be trained first, before the diffusion model can be trained in the frozen latent space. We propose UNITE - an autoencoder architecture for unified tokenization and latent diffusion. UNITE consists of a Generative Encoder that serves as both image tokenizer and latent generator via weight sharing. Our key insight is that tokenization and generation can be viewed as the same latent inference problem under different conditioning regimes: tokenization infers latents from fully observed images, whereas generation infers them from noise together with text or class conditioning. Motivated by this, we introduce a single-stage training procedure that jointly optimizes both tasks via two forward passes through the same Generative Encoder. The shared parameters enable gradients to jointly shape the latent space, encouraging a "common latent language". Across image and molecule modalities, UNITE achieves near state of the art performance without adversarial losses or pretrained encoders (e.g., DINO), reaching FID 2.12 and 1.73 for Base and Large models on ImageNet 256 x 256. We further analyze the Generative Encoder through the lenses of representation alignment and compression. These results show that single stage joint training of tokenization & generation from scratch is feasible.

cs.CV cs.AI cs.GR cs.LG

参考文献 (20)

Similarity of Neural Network Representations Revisited

Simon Kornblith, Mohammad Norouzi, Honglak Lee 等

2019 1934 引用 ⭐ 高影响力查看解读 →

Generative Adversarial Networks

I. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza 等

2021 30432 引用 ⭐ 高影响力查看解读 →

DINOv2: Learning Robust Visual Features without Supervision

M. Oquab, Timothée Darcet, Théo Moutakanni 等

2023 7109 引用 ⭐ 高影响力查看解读 →

Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think

Sihyun Yu, Sangkyung Kwak, Huiwon Jang 等

2024 404 引用 ⭐ 高影响力查看解读 →

Emerging Properties in Self-Supervised Vision Transformers

Mathilde Caron, Hugo Touvron, Ishan Misra 等

2021 8554 引用查看解读 →

All-atom Diffusion Transformers: Unified generative modelling of molecules and materials

Chaitanya K. Joshi, Xiang Fu, Yiyi Liao 等

2025 59 引用查看解读 →

Self-Supervised Flow Matching for Scalable Multi-Modal Synthesis

Hila Chefer, Patrick Esser, Dominik Lorenz 等

2026 1 引用查看解读 →

Autoregressive Image Generation without Vector Quantization

Tianhong Li, Yonglong Tian, He Li 等

2024 554 引用查看解读 →

Movie Gen: A Cast of Media Foundation Models

Adam Polyak, Amit Zohar, Andrew Brown 等

2024 449 引用查看解读 →

Flow Matching for Generative Modeling

Y. Lipman, Ricky T. Q. Chen, Heli Ben-Hamu 等

2022 3715 引用查看解读 →

Neural Discrete Representation Learning

Aäron van den Oord, O. Vinyals, K. Kavukcuoglu

2017 6837 引用查看解读 →

Layer Normalization

Jimmy Ba, J. Kiros, Geoffrey E. Hinton

2016 12170 引用查看解读 →

Language Models are Few-Shot Learners

Tom B. Brown, Benjamin Mann, Nick Ryder 等

2020 55690 引用查看解读 →

PixArt-α: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis

Junsong Chen, Jincheng Yu, Chongjian Ge 等

2023 776 引用查看解读 →

Python Materials Genomics (pymatgen): A robust, open-source python library for materials analysis

S. Ong, W. Richards, Anubhav Jain 等

2012 3778 引用

PixNerd: Pixel Neural Field Diffusion

Shuai Wang, Ziteng Gao, Chenhui Zhu 等

2025 28 引用查看解读 →

Quantum chemistry structures and properties of 134 kilo molecules

R. Ramakrishnan, Pavlo O. Dral, Pavlo O. Dral 等

2014 2227 引用

Wan: Open and Advanced Large-Scale Video Generative Models

Ang Wang, Baole Ai, Bin Wen 等

2025 1226 引用查看解读 →

BERT: A Review of Applications in Natural Language Processing and Understanding

M. V. Koroteev

2021 455 引用查看解读 →

Adaptive Length Image Tokenization via Recurrent Allocation

Shivam Duggal, Phillip Isola, Antonio Torralba 等

2024 26 引用查看解读 →

End-to-End Training for Unified Tokenization and Latent Denoising

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

Latent Diffusion Model (潜在扩散模型)

Autoencoder (自编码器)

Tokenization (令牌化)

Generative Encoder (生成编码器)

FID (Fréchet Inception Distance)

Weight Sharing (权重共享)

Latent Space (潜在空间)

Adversarial Loss (对抗性损失)

Pretrained Encoder (预训练编码器)

Representation Alignment (表示对齐)

Compression (压缩)

Single-stage Training (单阶段训练)

Common Latent Language (共同的潜在语言)

Ablation Study (消融研究)

Text or Class Conditioning (文本或类别条件)

开放问题 这项研究留下的未解疑问

应用场景

近期应用

高质量图像生成

分子结构设计

图像处理

远期愿景

实时生成应用

跨模态生成

原文摘要

参考文献 (20)

相关论文

Deployment-Aligned Low-Precision Neural Architecture Search for Spaceborne Edge AI

DeepTaxon: An Interpretable Retrieval-Augmented Multimodal Framework for Unified Species Identification and Discovery

Learn&Drop: Fast Learning of CNNs based on Layer Dropping

SS3D: End2End Self-Supervised 3D from Web Videos

PASR: Pose-Aware 3D Shape Retrieval from Occluded Single Views

A Non-Invasive Alternative to RFID: Self-Sufficient 3D Identification of Group-Housed Livestock

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问