Towards Controllable Image Generation through Representation-Conditioned Diffusion Models

TL;DR

基于DINO表征的条件扩散模型实现高质量且可控图像生成，LSUN和CelebA数据集验证。

cs.CV 🔴 高级 2026-05-27 54 次浏览

Nithesh Chandher Karthikeyan Jonas Unger Gabriel Eilertsen

扩散模型自监督学习图像生成表征学习可控生成

核心发现

方法论

本文提出了一种基于预训练自监督模型DINO提取的图像表征来条件扩散模型的生成框架。具体而言，首先利用DINO编码器将输入图像映射到768维的表征空间，随后在潜在扩散模型（Latent Diffusion Model, LDM）的潜在空间中，采用条件去噪U-Net网络，以该表征作为条件信息指导图像生成。该方法借鉴并改进了Representation Conditioned Generation (RCG)的思路，结合MoCo v3编码器和MAGE生成器的设计，实现在无监督条件下的高质量图像生成。训练时，分别在LSUN Churches和CelebA两个数据集上进行，使用预训练的VAE进行图像压缩，保证潜在空间的有效表达。通过扰动和线性插值等技术，探索表征空间中的语义方向，实现对生成图像的平滑且部分解耦的控制。

关键结果

在LSUN Churches数据集上，Representation Conditioned Diffusion Model (RCDM)在扰动强度λ>0.4时，仍能保持图像质量和内容一致性，而Diffusion Inversion方法在同等条件下图像质量显著下降，表明RCDM具有更强的鲁棒性和稳定性。
通过在CelebA数据集上对表征空间进行线性插值，RCDM生成的图像表现出语义平滑过渡，优于Stable Diffusion和Diffusion Inversion方法，后者在中间插值点出现图像模糊或突变。
利用有监督和无监督方法发现语义方向，RCDM能通过添加属性向量（如金发）实现图像属性的可控修改。无监督PCA分析揭示了额头大小、发型长度等多种语义变化方向，尽管解耦性不及GAN，但展现出潜在的可解释性。

研究意义

本研究首次系统验证了基于自监督表征条件的扩散模型在图像生成中的可控性和质量提升潜力。相比传统依赖文本提示或语义图的条件方法，RCDM不依赖大规模标注数据，降低了数据需求门槛。其在无监督条件下实现的平滑语义变换和部分解耦，为扩散模型的潜在空间设计提供了新思路，推动了高质量图像生成技术向更灵活、精准的方向发展，具有重要的学术价值和工业应用前景。

技术贡献

本文的技术贡献主要体现在：1）创新性地将预训练自监督模型DINO的图像表征作为扩散模型的条件输入，提升无条件生成质量；2）构建了一个可操作的表征空间，实现了对生成图像的语义方向控制，兼具平滑性和一定程度的解耦性；3）结合潜在扩散模型和条件去噪U-Net，设计了高效的训练框架，支持多数据集适配；4）通过有监督和无监督方法系统探索语义方向，验证了表征空间的潜力，拓展了扩散模型的应用边界。

新颖性

本工作首次深入探讨了利用自监督视觉表征（DINO）作为扩散模型条件的可控生成机制，区别于以往依赖文本提示或语义图的条件扩散方法。其核心创新在于将无监督学习的表征空间作为潜在控制变量，实现了无需额外标注即可进行高质量且可控的图像生成，填补了扩散模型潜在空间设计的研究空白。

局限性

当前方法在语义方向的解耦性和可解释性方面仍不及GAN等生成模型，存在属性间的相关性干扰，限制了精细控制能力。
实验主要基于两个数据集（LSUN Churches和CelebA），泛化能力和跨域适应性尚未充分验证，实际应用中可能受限。
未实现完全无条件生成的端到端训练，依赖预训练表征，限制了模型的自主生成能力和灵活性。

未来方向

未来工作可聚焦于优化表征空间的解耦性，提升语义方向的独立性和可解释性；探索更多自监督编码器和多模态表征的融合以增强控制能力；实现端到端的无条件生成训练，提升模型的自主性；并将该方法应用于图像编辑、数据增强等实际场景，推动扩散模型的广泛应用。

AI 总览摘要

近年来，扩散模型因其在高质量图像生成和编辑领域的卓越表现，迅速成为生成建模的主流方法。然而，如何有效控制扩散模型生成的图像内容，尤其是在无需大量标注数据的条件下，仍是一个亟待解决的难题。传统方法多依赖文本提示或语义图等条件信息，这不仅增加了数据收集和标注的成本，也限制了模型的灵活性和适用范围。针对这一瓶颈，本文提出了一种基于预训练自监督视觉表征的条件扩散模型（Representation Conditioned Diffusion Model，RCDM），利用DINO编码器提取的图像表征作为生成条件，实现了无监督条件下的高质量且可控图像生成。

具体方法上，作者首先采用DINO自监督编码器将输入图像映射到768维的表征空间，随后在潜在扩散模型的潜在空间中，利用条件去噪U-Net网络，以该表征作为条件信息指导图像生成。该设计不仅提升了无条件生成的图像质量，还为生成过程提供了一个结构化且可操作的潜在空间。通过在LSUN Churches和CelebA数据集上的实验，验证了该方法的有效性和稳定性。

在技术细节方面，作者通过扰动和线性插值等技术，探索了表征空间中的语义方向，发现该空间具备较好的平滑性和一定程度的解耦性。具体实验显示，RCDM在高扰动强度下仍能保持图像质量，而传统Diffusion Inversion方法则出现明显退化。此外，利用有监督的属性均值向量和无监督的PCA方法，成功实现了对图像属性（如发色、发型、背景色等）的可控修改，展示了表征空间的潜力。

该研究的意义在于突破了传统条件扩散模型对标注数据的依赖，提出了基于自监督表征的条件生成新范式，既提升了生成质量，又实现了更灵活的控制。技术贡献包括创新性地结合DINO表征与潜在扩散模型，构建了一个可操作的语义潜在空间，并通过系统实验验证了其可控性和稳定性。尽管目前在解耦性和泛化能力方面仍有不足，但为扩散模型的潜在空间设计和无监督可控生成开辟了新方向。

展望未来，作者建议进一步优化表征空间的解耦性，提升语义方向的独立性和可解释性；探索多模态和更强表征编码器的融合；实现端到端无条件生成训练；并将该技术应用于图像编辑、数据增强等实际场景，推动扩散模型技术的广泛应用和产业化。总体来看，本文为扩散模型的可控生成研究提供了重要的理论基础和实践路径，具有较高的学术价值和应用潜力。

深度分析

研究背景

生成模型领域经历了从GANs（生成对抗网络）到扩散模型的快速演进。GANs因其结构化且解耦的潜在空间，能够实现细粒度的图像编辑而备受关注，如StyleGAN系列[2][3]。然而，GAN训练不稳定且容易模式崩溃。扩散模型作为替代，凭借其稳健的训练过程和高质量生成效果，逐渐成为主流[10]。尽管扩散模型在图像生成和编辑中表现卓越，但其潜在空间的结构化和可控性远不及GAN，限制了对生成内容的精细调控。现有条件扩散方法多依赖文本提示[11][12]或语义图，需大量标注数据，且对提示工程依赖较大，难以实现精准控制。近年来，自监督学习（SSL）模型如DINO[15]、MoCo v3[9]等在无标签数据上学习出强表征，展现出潜在作为生成条件的优势。本文基于此背景，提出利用预训练自监督模型的表征作为扩散模型的条件输入，旨在提升生成质量并实现更灵活的可控生成。

核心问题

扩散模型虽能生成高质量图像，但缺乏结构化且可操作的潜在空间，导致难以实现对生成图像细节的精准控制。传统条件扩散依赖文本或语义标签，受限于标注数据的稀缺和提示工程的复杂性。此外，现有方法在无条件生成时质量有限，且潜在空间缺乏解耦性，难以实现属性独立调节。如何构建一个基于无监督表征的条件扩散模型，既提升无条件生成质量，又提供一个可操作、平滑且部分解耦的潜在空间，是当前的核心挑战。

核心创新

本文的核心创新包括：

�� 利用预训练自监督视觉编码器DINO提取图像表征，作为扩散模型的条件输入，摆脱对文本或语义标签的依赖。

�� 将条件去噪U-Net集成于潜在扩散模型（LDM）中，实现基于表征的条件生成，提升无条件生成质量。

�� 通过扰动和插值技术探索表征空间的语义方向，验证其平滑性和部分解耦性，支持对图像属性的可控修改。

�� 结合有监督属性均值向量和无监督PCA方法，系统发现语义方向，拓展了扩散模型潜在空间的可解释性和应用范围。

这些创新突破了传统条件扩散模型对标注数据和提示工程的依赖，为无监督条件生成提供了新范式。

方法详解

�� 预训练编码器：采用DINO自监督视觉Transformer编码器，将输入图像映射为768维表征向量，捕获丰富的语义信息。

�� 潜在空间压缩：利用预训练的变分自编码器（VAE）对图像进行潜在空间压缩，降低生成复杂度。

�� 条件扩散模型训练：在潜在扩散模型（LDM）框架下，设计条件去噪U-Net网络，输入为噪声潜在变量和对应的DINO表征条件。

�� 训练数据：分别在LSUN Churches和CelebA数据集上训练，确保模型适应不同语义域。

�� 表征空间探索：通过对表征向量施加高斯噪声扰动，观察生成图像的质量和内容变化；利用线性插值在两个表征间生成平滑过渡图像。

�� 语义方向发现：
有监督方法：计算特定属性（如金发）样本的平均表征，作为属性向量加到参考图像表征上，实现属性添加。
无监督方法：对表征空间应用PCA，提取主成分作为潜在语义方向，探索属性变化。

�� 评估指标：通过视觉质量对比和属性控制效果验证方法有效性。

实验设计

实验选用两个公开数据集：LSUN Churches和CelebA。LSUN Churches包含大量教堂建筑图像，适合验证结构化语义的生成；CelebA包含丰富的人脸属性标签，便于语义方向的有监督探索。预训练DINO编码器用于提取768维表征，VAE模型实现图像潜在空间压缩。训练条件去噪U-Net时，输入为噪声潜在变量和对应表征。基线方法包括Diffusion Inversion和Stable Diffusion。实验设计涵盖扰动强度变化、表征插值、语义方向加法及PCA分析。通过定性图像对比和属性修改效果，评估模型的生成质量、平滑性和可控性。部分实验使用STL-10数据集验证Diffusion Inversion的鲁棒性对比。

结果分析

实验结果表明：

�� 在LSUN Churches数据集上，RCDM在扰动强度λ>0.4时仍保持较高图像质量和内容一致性，而Diffusion Inversion在同等条件下图像质量显著下降，显示出RCDM更强的鲁棒性。

�� 在CelebA数据集上，RCDM通过线性插值实现了语义平滑过渡，生成图像在属性变化上连贯自然，优于Stable Diffusion和Diffusion Inversion，后者在中间插值点出现明显模糊或突变。

�� 有监督语义方向加法成功实现了金发、秃顶等属性的添加，但存在属性间相关性干扰，如秃顶属性影响性别表现。

�� 无监督PCA分析揭示了额头大小、短发、背景色、长发等多种语义变化方向，尽管解耦性不及GAN，但展现出潜在的可解释性和控制能力。

应用场景

该方法适用于多种图像生成与编辑场景：

�� 无监督图像编辑：利用表征空间语义方向，实现对图像属性的灵活修改，无需额外标注。

�� 数据增强：通过生成多样化且语义可控的图像，提升下游任务训练数据的丰富性和泛化能力。

�� 艺术创作与设计：为艺术家和设计师提供基于语义表征的生成工具，实现风格和内容的精准控制。

�� 计算机视觉研究：为理解扩散模型潜在空间结构和语义解耦提供实验平台，推动生成模型理论发展。

局限与展望

尽管取得初步成果，本文方法仍存在局限：

�� 表征空间的语义方向解耦性有限，属性间存在相关性，影响控制精度。

�� 实验仅覆盖两个数据集，泛化性和跨域适应性尚需验证。

�� 依赖预训练表征，未实现端到端无条件生成，限制了模型的自主性和灵活性。

�� 对比基线较少，缺乏更多多样化方法的横向评估。

�� 计算资源需求较高，训练和推理效率有待提升。

原文摘要

Diffusion models have emerged as powerful tools for high-quality image generation and editing, but guiding these models to produce specific outputs remains a challenge. Conventional approaches rely on conditioning mechanisms, such as text prompts or semantic maps, which require extensively annotated datasets. In this preliminary work, we explore diffusion models conditioned on representations from a pre-trained self-supervised model. The self-conditioning mechanism not only improves the quality of unconditional image generation, but also provides a representation space that can be used to control the generation. We explore this conditioning space by identifying directions of variations, and demonstrate promising properties in terms of smoothness and disentanglement.

cs.CV cs.LG

参考文献 (18)

Training on Thin Air: Improve Image Classification with Generated Data

Yongchao Zhou, Hshmat Sahak, Jimmy Ba

2023 69 引用查看解读 →

Neural Discrete Representation Learning

Aäron van den Oord, O. Vinyals, K. Kavukcuoglu

2017 7247 引用查看解读 →

Interpreting the Latent Space of GANs for Semantic Face Editing

Yujun Shen, Jinjin Gu, Xiaoou Tang 等

2019 1246 引用查看解读 →

High-Resolution Image Synthesis with Latent Diffusion Models

Robin Rombach, A. Blattmann, Dominik Lorenz 等

2021 24770 引用查看解读 →

An Analysis of Single-Layer Networks in Unsupervised Feature Learning

A. Coates, A. Ng, Honglak Lee

2011 4433 引用

Diffusion Autoencoders: Toward a Meaningful and Decodable Representation

Konpat Preechakul, Nattanat Chatthee, Suttisak Wizadwongsa 等

2021 590 引用查看解读 →

Emerging Properties in Self-Supervised Vision Transformers

Mathilde Caron, Hugo Touvron, Ishan Misra 等

2021 9134 引用查看解读 →

Discovering Interpretable Directions in the Semantic Latent Space of Diffusion Models

René Haas, Inbar Huberman-Spiegelglas, Rotem Mulayoff 等

2023 71 引用查看解读 →

Diffusion Models already have a Semantic Latent Space

Mingi Kwon, Jaeseok Jeong, Youngjung Uh

2022 369 引用查看解读 →

Multi-Concept Customization of Text-to-Image Diffusion

Nupur Kumari, Bingliang Zhang, Richard Zhang 等

2022 1305 引用查看解读 →

GANSpace: Discovering Interpretable GAN Controls

Erik Härkönen, Aaron Hertzmann, J. Lehtinen 等

2020 1021 引用查看解读 →

Generative Adversarial Networks

I. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza 等

2021 30356 引用查看解读 →

Image2StyleGAN: How to Embed Images Into the StyleGAN Latent Space?

Rameen Abdal, Yipeng Qin, Peter Wonka

2019 1199 引用查看解读 →

DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

Nataniel Ruiz, Yuanzhen Li, Varun Jampani 等

2022 4209 引用查看解读 →

Return of Unconditional Generation: A Self-supervised Representation Generation Method

Tianhong Li, Dina Katabi, Kaiming He

2023 94 引用查看解读 →

An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion

Rinon Gal, Yuval Alaluf, Y. Atzmon 等

2022 2717 引用查看解读 →

LSUN: Construction of a Large-scale Image Dataset using Deep Learning with Humans in the Loop

F. Yu, Yinda Zhang, Shuran Song 等

2015 2638 引用查看解读 →

High Fidelity Visualization of What Your Self-Supervised Representation Knows About

Florian Bordes, Randall Balestriero, P. Vincent

2021 78 引用查看解读 →