核心发现
方法论
本文提出的DecQ框架在表示自编码器(RAE)基础上引入轻量级的细节浓缩查询(detail-condensing queries),通过跨注意力机制从冻结的视觉基础模型(VFM)中间层特征提取细粒度信息。具体地,DecQ在VFM的多个中间层附加冷凝器模块(condenser modules),将多层次特征聚合到少量查询向量中,这些查询向量与VFM的patch tokens一起输入ViT解码器,支持高质量的图像重建和生成。生成阶段,查询向量与patch tokens联合进行扩散模型的去噪过程,保持VFM语义空间不变的同时增强低级视觉细节,从而缓解了重建与生成性能的权衡。
关键结果
- 在ImageNet数据集256×256分辨率下,DecQ仅增加8个查询和3.9%的计算开销,基于冻结DINOv2的RAE,重建PSNR从19.13dB提升至22.76dB,rFID显著降低,表明细节恢复能力大幅增强。
- 生成任务中,DecQ在无引导条件下80个epoch时达到FID 1.80,远优于RAE的2.16,且训练收敛速度提升3.3倍;在800个epoch时,带引导FID进一步降至1.05,刷新高维VFM生成的最优性能。
- 消融实验显示,适度数量的查询(8个)和跨多个VFM层的冷凝器设计(层0,3,6,9)实现了最佳的重建-生成平衡,且细节浓缩查询的联合预测本身即有助于提升生成质量。
研究意义
本研究针对当前表示自编码器中冻结视觉基础模型导致的空间重建能力不足与微调破坏语义空间的矛盾,提出了一种创新的细节浓缩查询机制。该机制有效补充了VFM语义潜空间中缺失的低级视觉信息,显著提升了图像重建的细节还原和生成的视觉质量,同时保持了VFM的语义稳定性。这不仅推动了高维语义潜空间生成模型的性能极限,也为未来多任务视觉模型设计提供了新的范式,兼顾重建与生成的双重需求,具有重要的学术价值和工业应用潜力。
技术贡献
DecQ的核心技术贡献在于引入了跨注意力驱动的细节浓缩查询,作为冻结VFM与生成解码器之间的桥梁,首次实现了在不修改预训练VFM参数的前提下,有效提取并利用中间层低级特征。该设计避免了传统微调带来的语义空间扰动,且通过联合去噪机制提升了扩散模型的训练效率和生成质量。此外,DecQ提出了多层次特征冷凝策略,兼顾浅层细节和深层语义,优化了重建与生成的权衡,扩展了表示自编码器的应用边界。
新颖性
DecQ创新地通过引入细节浓缩查询,解决了冻结视觉基础模型在表示自编码器中重建能力不足与微调破坏语义空间之间的矛盾。与传统微调或特征拼接方法不同,DecQ保持VFM语义空间不变,通过跨注意力机制从中间层提取细粒度信息,联合生成过程,显著提升了重建和生成性能,首次实现了重建与生成的双赢。
局限性
- DecQ虽然提升了细节恢复和生成质量,但仍依赖于预训练VFM的特征表达能力,对于极端复杂或细节异常丰富的图像场景,细节浓缩查询的容量可能受限。
- 增加查询数量虽能提升重建,但过多查询会引入冗余信息,反而影响生成性能,表明模型对查询数目和冷凝层选择较为敏感,需精细调优。
- 当前实验主要基于DINOv2和SigLIP2两种VFM,模型在其他视觉基础模型上的泛化性和适应性仍需进一步验证。
未来方向
未来工作可探索动态调整查询数量和冷凝层深度的自适应机制,以更灵活地平衡重建与生成性能。同时,结合多模态预训练模型扩展细节浓缩查询的语义理解能力,提升跨任务泛化。此外,可研究更高效的冷凝器设计和轻量化查询结构,降低计算开销,推动DecQ在更大规模和更高分辨率图像生成中的应用。
AI 总览摘要
在现代视觉生成领域,扩散模型已成为主流技术,通常依赖两阶段训练:先训练图像编码器(tokenizer),再在潜空间训练生成模型。表示自编码器(RAE)创新地利用冻结的视觉基础模型(VFM)作为编码器,借助其强大的语义表达加速生成模型收敛并提升生成质量。然而,冻结VFM导致其空间重建能力受限,难以恢复图像中的细节和纹理,影响细粒度生成和编辑。微调VFM虽能改善重建,但破坏了预训练的语义空间,降低生成质量,形成明显权衡。
为解决这一难题,本文提出了DecQ框架,核心在于引入细节浓缩查询,这些轻量级查询通过跨注意力机制从VFM中间层提取细粒度信息,补充冻结VFM的语义潜空间。查询与patch tokens一同输入ViT解码器,支持高质量重建和生成。生成阶段,查询与patch tokens联合去噪,丰富细节而不扰动语义结构,显著缓解了重建与生成的矛盾。
技术上,DecQ在VFM多个中间层附加冷凝器模块,逐层聚合多层次特征至少量查询向量,保证信息流单向传递,避免修改VFM参数。该设计既轻量又结构一致,兼顾低级细节和高级语义。实验在ImageNet 256×256分辨率上验证,DecQ仅增加3.9%计算开销,重建PSNR从19.13dB提升至22.76dB,生成FID在80个epoch时达1.80,训练速度较RAE快3.3倍,800个epoch时带引导FID降至1.05,刷新高维VFM生成性能。
此外,消融研究表明,8个查询和选取层0、3、6、9作为冷凝层实现最佳性能平衡。查询向量主要捕获颜色和纹理等低级信息,patch tokens保持语义结构,两者互补。DecQ在不同VFM架构(如SigLIP2)上均表现出良好泛化能力。
该工作不仅突破了冻结VFM在表示自编码器中的重建瓶颈,也为高维语义潜空间生成提供了新的设计范式。未来可探索动态查询机制、多模态扩展及更高效冷凝器设计,推动细节丰富且语义稳定的图像生成技术向更广泛应用迈进。
深度分析
研究背景
视觉生成技术近年来取得显著进展,尤其是基于扩散模型的图像合成方法。传统扩散模型通常依赖变分自编码器(VAE)构建潜空间,然而VAE的重建目标导致潜空间语义结构较弱,限制了生成质量。表示自编码器(RAE)通过引入冻结的视觉基础模型(VFM)作为编码器,利用其强语义表达能力,显著加速扩散模型训练收敛并提升生成效果。代表性工作如DINOv2和SigLIP2等自监督视觉模型提供了丰富的语义特征,成为RAE的理想编码器基础。然而,VFM训练目标多为多模态对齐或自蒸馏,缺乏像素级重建约束,导致其编码的潜空间对低级视觉细节敏感度不足,影响重建质量和细粒度生成能力。现有微调方法虽能改善重建,但往往破坏预训练语义空间,导致生成性能下降,形成明显的重建与生成性能权衡。
核心问题
RAE中冻结VFM编码器固然保证了语义潜空间的稳定性和生成模型的快速收敛,但其对低级细节的表达能力不足,导致图像重建存在颜色偏差、纹理缺失等问题,限制了细粒度生成和图像编辑的效果。另一方面,微调VFM以增强重建能力虽能恢复更多细节,但会扰乱预训练的语义空间结构,降低生成模型的质量和收敛速度。现有通过特征拼接或蒸馏等方式增强重建信息的方法,仍面临语义与低级信息混淆,难以兼顾两者。如何在不破坏VFM语义空间的前提下,有效补充低级视觉细节,实现重建与生成性能的双重提升,是当前RAE领域的核心挑战。
核心创新
本研究的核心创新在于提出细节浓缩查询(detail-condensing queries)机制,通过跨注意力模块从冻结VFM的多个中间层提取并聚合低级视觉信息,形成少量查询向量,与VFM的patch tokens互补。该设计实现了:
- �� 保持VFM参数冻结,避免语义空间扰动。
- �� 通过单向跨注意力确保信息仅从patch tokens流向查询,防止查询影响原始语义表示。
- �� 联合生成阶段的查询和patch tokens去噪,增强细节恢复和生成质量。
- �� 多层次冷凝器模块聚合浅层细节和深层语义,优化重建与生成的权衡。
该方法首次实现了在高维VFM潜空间中,细粒度信息的有效补充与语义稳定性的兼顾,突破了以往微调或特征拼接带来的性能瓶颈。
方法详解
- �� 采用冻结的视觉基础模型(如DINOv2-B)作为编码器,输出patch tokens作为语义潜空间。
- �� 在VFM的中间层(默认层0、3、6、9)附加冷凝器模块,每个冷凝器包含跨注意力和前馈网络,查询tokens作为查询,patch tokens作为键值,通过跨注意力聚合多层次特征。
- �� 细节浓缩查询tokens数量设为8,作为压缩的低级视觉信息载体,保持轻量级设计。
- �� 查询tokens与patch tokens分别通过线性映射和位置编码后,拼接输入ViT解码器,支持图像重建。
- �� 训练阶段,查询和patch tokens均加入噪声,联合通过扩散模型的流匹配目标进行去噪训练。
- �� 生成阶段,查询和patch tokens联合采样和去噪,解码为高质量图像。
- �� 采用ImageNet数据集256×256分辨率,使用PSNR、SSIM、rFID评估重建质量,FID、IS、Precision、Recall评估生成性能。
实验设计
实验基于ImageNet 256×256分辨率,采用DINOv2-B作为默认VFM,ViT-XL解码器约5亿参数。基线包括冻结VFM的RAE、微调VFM、特征拼接等方法。重建评估指标为PSNR、SSIM和rFID,生成评估指标为FID、IS、Precision和Recall。消融实验探究查询数量、冷凝层位置对性能的影响。训练采用50步采样,查询损失权重设为1。实验还验证了DecQ在SigLIP2-B等不同VFM上的泛化能力。结果显示,DecQ在重建和生成两方面均优于基线,且训练收敛速度显著加快。
结果分析
DecQ在重建任务中,PSNR从RAE的19.13dB提升至22.76dB,rFID显著降低,表明细节恢复能力大幅增强。生成任务中,DecQ在80个epoch时无引导FID为1.80,较RAE的2.16显著提升,且训练速度提升3.3倍;800个epoch时带引导FID降至1.05,刷新高维VFM生成性能。消融显示8个查询和层0、3、6、9的冷凝器配置实现最佳重建-生成平衡。查询tokens主要捕获颜色和纹理等低级信息,patch tokens保持语义结构,两者互补。不同VFM上均表现良好,验证了方法的鲁棒性。
应用场景
DecQ适用于高质量图像生成与编辑任务,尤其在需要细粒度细节恢复的场景如艺术创作、医学影像重建和虚拟现实中具有优势。其保持冻结VFM语义空间的设计,便于集成现有预训练模型,降低训练成本。该方法也为多任务视觉模型提供了新的设计思路,支持同时满足语义理解和细节重建需求,推动视觉生成技术向更高精度和更广泛应用发展。
局限与展望
DecQ依赖预训练VFM的特征表达能力,面对极端复杂细节场景可能表现有限。查询数量和冷凝层选择对性能敏感,需精细调优以避免冗余信息干扰生成。当前验证主要限于DINOv2和SigLIP2,其他VFM的适用性尚待进一步研究。此外,尽管计算开销较小,但在更大规模和更高分辨率下的效率和扩展性仍需考察。
原文摘要
Representation Autoencoders (RAEs) leverage frozen vision foundation models (VFMs) as tokenizer encoders, providing robust high-level representations that facilitate fast convergence and high-quality generation in latent diffusion models. However, freezing the VFM inherently constrains its spatial reconstruction capacity, limiting fine-grained generation and image editing; in contrast, incorporating reconstruction-oriented signals via fine-tuning disrupts the pretrained semantic space and degrades generative fidelity. To address this trade-off, we propose DecQ, a simple yet effective framework for RAEs. Specifically, DecQ introduces lightweight detail-condensing queries that extract fine-grained information from intermediate VFM features through condenser modules. These queries are incorporated into the decoder to support reconstruction and are jointly generated with patch tokens during generative modeling. By aggregating information from both shallow and deep layers, DecQ effectively mitigates the reconstruction--generation trade-off, improving both reconstruction quality and generative performance. Our experiments demonstrate that: (1) with only 8 additional queries and 3.9% extra computation, DecQ improves reconstruction over the frozen DINOv2-based RAE, increasing PSNR from 19.13 dB to 22.76 dB; and (2) for generative modeling, DecQ achieves 3.3$\times$ faster convergence than RAE, attaining an FID of 1.41 without guidance and 1.05 with guidance.
参考文献 (20)
Diffusion Transformers with Representation Autoencoders
Boyang Zheng, Nanye Ma, Shengbang Tong 等
StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-Image Synthesis
Axel Sauer, Tero Karras, S. Laine 等
Fast Training of Diffusion Models with Masked Transformers
Hongkai Zheng, Weili Nie, Arash Vahdat 等
DualToken: Towards Unifying Visual Understanding and Generation with Dual Visual Vocabularies
Wei Song, Yuran Wang, Zijia Song 等
Representation Entanglement for Generation:Training Diffusion Transformers Is Much Easier Than You Think
Ge Wu, Shen Zhang, Ruijing Shi 等
SANA: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformers
Enze Xie, Junsong Chen, Junyu Chen 等
High-Resolution Image Synthesis with Latent Diffusion Models
Robin Rombach, A. Blattmann, Dominik Lorenz 等
Vision Foundation Models Can Be Good Tokenizers for Latent Diffusion Models
Tianci Bi, Xiaoyi Zhang, Yan Lu 等
The Unreasonable Effectiveness of Deep Features as a Perceptual Metric
Richard Zhang, Phillip Isola, Alexei A. Efros 等
ImageNet: A large-scale hierarchical image database
Jia Deng, Wei Dong, R. Socher 等
Aligning Visual Foundation Encoders to Tokenizers for Diffusion Models
Bowei Chen, Sai Bi, Hao Tan 等
Latent Diffusion Model without Variational Autoencoder
Minglei Shi, Haolin Wang, Wenzhao Zheng 等
Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens
Kaihang Pan, Wang Lin, Zhongqi Yue 等
Image quality assessment: from error visibility to structural similarity
Zhou Wang, A. Bovik, H. Sheikh 等
AUTO-ENCODING VARIATIONAL BAYES
Romain Lopez, Pierre Boyeau, N. Yosef 等
RPiAE: A Representation-Pivoted Autoencoder Enhancing Both Image Generation and Editing
Yue Gong, Hongyu Li, Shanyuan Liu 等
Neural Discrete Representation Learning
Aäron van den Oord, O. Vinyals, K. Kavukcuoglu
Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think
Sihyun Yu, Sangkyung Kwak, Huiwon Jang 等