RATS! Patches Talk Through Registers: Emergent Parts in Register Attention Transformers

TL;DR

提出RATS（寄存器注意力变换器），通过N个可学习寄存器实现无监督的部件结构发现，在五个分割任务中平均提升12个mIoU。

cs.CV 🔴 高级 2026-06-13 44 次浏览

Timing Yang Predrag Neskovic Jansen Seheult Wenchao Han Anand Bhattad Alan Yuille Feng Wang

计算机视觉 Transformer 无监督学习结构化表示图像分割

核心发现

方法论

本文提出的RATS框架在标准Vision Transformer基础上引入寄存器注意力机制，将分类token分解为N个可学习的寄存器token，利用三步压缩-通信-广播的注意力机制实现patch信息的路由。每个寄存器在不同的注意力头中独立分配，避免交互，从而促使不同寄存器自发地专注于不同的语义区域。这一机制无需辅助损失或部件标注，便能让寄存器自我专门化为类似物体部件的proto-语义区域。训练过程中，模型通过DINO自蒸馏目标优化，寄存器的相似性映射可以揭示出具有语义一致性和跨类别的部件字典。该方法在五个分割基准上平均提升12个mIoU，特别在ADE20K和COCO上表现出显著优势，验证了其在结构化和可解释视觉表示学习中的潜力。

关键结果

在五个分割任务中，RATS平均超越所有基线12个mIoU，最大提升达16.89（PartImageNet），在ADE20K和COCO上分别提升1.11和0.2的mIoU，显示出优越的部件分割能力。
通过寄存器字典，模型展现出跨类别的部件一致性和语义邻近性，支持零样本的部件组合与泛化能力。
在下游任务中，利用寄存器作为查询输入，结合Mask2Former进行语义分割和目标检测，性能优于仅使用预训练特征的DINO模型，验证了寄存器的语义表达优势。

研究意义

该研究突破了自监督视觉模型在无标注条件下自动发现结构化部件的瓶颈，为理解和解释深度模型提供了新途径。寄存器机制不仅提升了分割性能，还揭示了模型内部潜在的语义组织结构，有助于推动结构化表示与可解释AI的发展。其设计思想为未来构建具有更强语义理解和泛化能力的视觉模型提供了重要的架构先验，具有深远的学术和工业价值。

技术贡献

技术上，本文首次在Transformer架构中引入寄存器注意力机制，通过三步压缩-通信-广播实现patch信息的路由与自发部件化。寄存器在不同注意力头中独立分配，促使模型自我组织出具有语义一致性的区域表示。训练过程中，无需辅助标签或部件标注，模型通过自蒸馏目标学习到具有语义对应的部件结构。该方法在保持模型参数和计算复杂度的同时，显著提升了部件级别的结构发现能力，为无监督结构化表示提供了新思路。

新颖性

本研究的创新点在于引入寄存器作为中间表示，通过三步注意力机制实现patch信息的局部路由和全局整合，促使模型自发形成部件级语义结构。这是首个在纯自监督条件下实现无监督部件发现的Transformer架构，区别于传统的对象槽或超像素方法，强调部件的可迁移性和语义一致性。寄存器机制的设计突破了全连接自注意力的局限，为结构化、可解释的视觉表示开辟了新路径。

局限性

寄存器数量N的选择影响部件的细粒度与完整性，过多可能导致过度细分，过少则影响表达能力，尚需自动调节机制。
模型在极端复杂或高变异性类别中的部件自发性可能减弱，尤其在缺乏丰富语义信息的场景下表现有限。
当前方法主要在静态图像上验证，动态场景或视频中的结构化表示仍需进一步探索，且计算成本较高，需优化效率。

未来方向

未来可探索寄存器数量与模型容量的自适应调节机制，提升模型在复杂场景中的泛化能力。结合多模态信息（如文本、声音）增强部件语义的丰富性，推动跨模态结构化理解。同时，优化模型架构以降低计算成本，拓展到视频理解和实时应用中，进一步实现结构化、可解释的视觉智能。

AI 总览摘要

在计算机视觉领域，理解图像的内部结构一直是核心难题。传统的卷积神经网络和早期Transformer模型多关注全局特征，缺乏对局部部件的明确捕获。尽管自监督学习极大地推动了特征表示的丰富，但如何在无标注条件下自动发现物体的组成部分，仍是一个未解的难题。本文提出的RATS（寄存器注意力变换器）架构，旨在通过引入寄存器机制，实现模型对图像中结构化部件的自发发现和表示。

RATS在标准Vision Transformer基础上，通过在每个Transformer块中加入一个三步的压缩-通信-广播机制，将patch信息路由到N个可学习的寄存器中。这些寄存器在不同的注意力头中被独立分配，避免交叉干扰，从而促使每个寄存器自我专门化为特定的语义区域。训练过程中，模型无需任何辅助标签或部件标注，依靠自蒸馏目标学习到具有语义一致性的寄存器表示。实验结果显示，RATS在五个分割基准上平均提升12个mIoU，尤其在ADE20K和COCO数据集上表现出显著优势。

更令人振奋的是，寄存器形成的字典展现出跨类别的部件一致性和语义邻近性，支持模型在未见类别上的零样本泛化能力。这一机制不仅提升了分割性能，也为模型内部的语义组织提供了可解释性基础。通过将寄存器作为查询输入，结合Mask2Former进行下游任务，模型在语义分割和目标检测上均优于传统预训练模型，验证了其在实际应用中的潜力。

总之，RATS为无监督结构化表示提供了新思路，推动了深度学习模型的可解释性和泛化能力。未来，结合多模态信息和优化计算效率，有望在自动驾驶、机器人感知等领域实现更强的场景理解能力。该研究不仅丰富了Transformer架构的表达能力，也为理解深度模型的内部机制提供了宝贵的工具和视角。

深度分析

研究背景

近年来，深度学习在视觉任务中取得了巨大突破，尤其是自监督学习方法如DINO、SimCLR等极大丰富了特征表示。这些方法通过预训练学习到的特征在迁移到下游任务时表现出强大的泛化能力。Vision Transformer（ViT）引入全局自注意力机制，成功捕获长距离依赖，但其内部缺乏对局部结构的明确建模，导致难以自动发现物体的组成部分。传统的分割方法如超像素、槽（slot）模型和对象检测器，虽然可以捕获部分结构，但多依赖于有监督标注或复杂的后处理，缺乏纯自监督的部件发现能力。近年来，研究者开始探索引入中间表示（如槽、超像素）以实现部件级别的理解，但大多未能在无监督条件下自发形成具有语义一致性的部件结构。本文的创新在于引入寄存器机制，结合Transformer的自注意力架构，提供一种新颖的、无需标签的部件结构发现途径。

核心问题

核心问题在于，现有的自监督视觉模型虽然能学习丰富的特征，但缺乏机制主动组织这些特征为具有语义一致性的局部部件。全连接的自注意力机制将所有patch信息融合成一个全局表示，导致模型难以区分不同的局部区域，也无法自发形成具有语义意义的部件。如何在无监督条件下，让模型自动识别和分离出图像中的不同结构单元，成为提升模型理解能力的关键。特别是在分割任务中，缺乏明确的区域划分机制限制了模型的表现和可解释性。因此，设计一种机制，使模型能够在训练过程中自发地学习到具有语义一致性的局部区域，是当前亟待解决的问题。

核心创新

本文的创新点主要体现在引入寄存器（register）作为中间表示，通过三步的注意力机制实现patch信息的局部路由。具体包括：• 在每个Transformer块中加入寄存器注意力子层，将全局patch信息压缩到N个可学习的寄存器中；• 每个注意力头拥有独立的寄存器子集，避免不同头之间的干扰，促使不同寄存器专注于不同的语义区域；• 采用压缩-通信-广播的三步机制，使寄存器之间可以交换信息，从而形成更完整的结构。该机制在训练中无需任何辅助标签或部件标注，完全依赖自蒸馏目标，促使寄存器自我专门化为物体的部件或语义区域。这种设计突破了传统Transformer的全局表示限制，为无监督的部件发现提供了新途径。

方法详解

�� 输入图像被划分为L个patch，经过嵌入层生成patch tokens，分类token（[CLS]）被拆分为N个寄存器（R）和L个patch tokens（P）；• 在每个Transformer块中，采用寄存器注意力机制，寄存器通过压缩（将patch信息聚合到寄存器中）、通信（寄存器间自注意力交换信息）、广播（寄存器信息回传到patch）实现patch信息的路由；• 每个注意力头拥有独立的寄存器子集，避免不同头之间的干扰，促使不同头专注于不同区域；• 训练过程中，模型通过自蒸馏目标优化，无需任何部件标注，寄存器逐渐形成具有语义一致性的区域表示；• 通过寄存器与patch的相似性映射，生成部件级别的分割和字典，支持跨类别的部件迁移和泛化。

实验设计

�� 在ImageNet-1K上预训练两个模型（RATS-S和RATS-B），采用DINO自蒸馏目标，未修改训练策略；• 在五个分割基准（COCO、ADE20K、ImageNet、PartImageNet、IN-S919）上评估，使用mIoU、AP、ARI等指标；• 通过不同的寄存器数量（8、16、24、32）进行消融，分析寄存器数对分割质量和过度细分的影响；• 比较不同的注意力设计（共享寄存器vs每头独立寄存器、参数化通信vs无参数通信）；• 利用寄存器作为查询，结合Mask2Former进行下游任务，验证其在语义分割和目标检测中的效果。

结果分析

�� RATS在五个分割任务中平均提升12个mIoU，最大在PartImageNet达到16.89，显著优于对比模型如DINO、Superpixel、Slot模型；• 在ADE20K和COCO上，分别提升1.11和0.2的mIoU，验证其在复杂场景中的优越表现；• 寄存器字典展现出跨类别的部件一致性和语义邻近性，支持零样本的部件组合和泛化；• 利用寄存器作为查询输入，结合Mask2Former，性能优于仅用预训练特征的模型，验证了寄存器的语义表达能力。

应用场景

�� 结构化图像理解：可用于自动驾驶、机器人感知等场景中的目标分割与识别，提升模型的可解释性和泛化能力；• 迁移学习与零样本识别：寄存器字典支持跨类别的部件迁移，有助于少样本学习和新类别识别；• 视觉增强与生成：结合寄存器的部件表示，可推动生成模型在细粒度结构控制方面的发展。

局限与展望

�� 寄存器数量的选择影响模型性能，过多可能导致过度细分，影响整体结构的完整性；• 在极端复杂或高变异类别中，寄存器的自发专门化可能减弱，模型对细粒度结构的捕获仍有限；• 当前方法主要在静态图像上验证，动态场景和视频中的结构化表示仍需探索，且计算成本较高，需优化效率。

通俗解读非专业人士也能看懂

想象你在厨房里准备一顿大餐。每次做菜，你都需要把食材切成不同的部分，比如蔬菜、肉类、调料。每个厨师（就像模型中的寄存器）都专注于某一类食材，负责把它们准备好，然后和其他厨师交换信息，确保所有食材都配合得当。最终，这些不同的部分被组合成一道完整的菜肴。这个过程就像RATS模型中的寄存器机制，每个寄存器专注于识别和表示图像中的某个“部件”，比如鸟的头、翅膀或脚，然后通过交流，把这些“部件”组合成完整的物体。这样，模型就像一个聪明的厨师团队，能在没有老师指示的情况下，自发地发现图像中的不同“食材”和“菜肴”。它们学会了把复杂的图像拆解成简单的、具有意义的部分，就像我们在厨房里把菜肴拆分成不同的食材一样。这不仅让模型更懂“结构”，还能让它更容易解释自己在看什么，就像厨师知道每个部分的作用一样。

简单解释像给14岁少年讲一样

想象你在玩拼图游戏，你的目标是把散落的拼图片拼成一幅完整的画。每一块拼图片都代表一个物体的一部分，比如鸟的头、翅膀或脚。你没有老师告诉你每块拼图片代表什么，但你自己会发现哪些拼图片经常在一起，属于同一个部分，然后把它们拼在一起。这个过程就像RATS模型，它用一种特别的方法，把图像中的每个部分都分得清清楚楚。模型里面有一些“寄存器”，就像你手里的拼图片袋子，每个袋子专门装某一类拼图片，比如鸟的头或翅膀。模型会让这些“袋子”自己学习，逐渐知道哪些拼图片属于哪个部分，然后用它们拼出完整的鸟。最酷的是，这个模型不用老师告诉它每个部分长什么样子，它自己就能发现这些结构，就像你自己在拼图中找到每个部分的线索一样。这让模型变得更聪明，也更懂得图像里到底有什么组成部分。未来，这种方法还能帮机器人更好地理解环境，像我们一样找到不同的物体和它们的组成部分。

原文摘要

When humans see a bird, they recognize far more than just "bird" -- they see a head, wings, and talons, a structured assembly of reusable parts that can be identified across every bird they have ever seen. We ask whether a self-supervised visual model can discover the same compositional structure on its own. To this end, we propose RATS (Register Attention Transformers), which decomposes the classification token into N learnable register tokens that route patch information through an L->N->N->L bottleneck via a three-step compress-communicate-broadcast attention. The N registers are partitioned across the H attention heads, so that registers assigned to different heads do not interact with each other. Without auxiliary losses or part annotations, each register spontaneously specializes into a proto-semantic region whose emerging structure resembles object parts. RATS surpasses all baselines by +12 mIoU on average across five segmentation benchmarks, with consistent gains on ADE20K (+1.11 mIoU) and COCO (+0.2 AP^m). Its register dictionary further exhibits part-level consistency and semantic proximity across related categories. Our results suggest that RATS may provide a useful architectural prior for structured and interpretable visual representation learning.

cs.CV

参考文献 (20)

SAM 2: Segment Anything in Images and Videos

Nikhila Ravi, Valentin Gabeur, Yuan-Ting Hu 等

2024 3437 引用 ⭐ 高影响力查看解读 →

DINOv3

Oriane Sim'eoni, Huy V. Vo, Maximilian Seitzer 等

2025 922 引用 ⭐ 高影响力查看解读 →

Adaptive Slot Attention: Object Discovery with Dynamic Slot Number

Ke Fan, Zechen Bai, Tianjun Xiao 等

2024 32 引用 ⭐ 高影响力查看解读 →

Segment Anything

A. Kirillov, Eric Mintun, Nikhila Ravi 等

2023 13930 引用 ⭐ 高影响力查看解读 →

Emerging Properties in Self-Supervised Vision Transformers

Mathilde Caron, Hugo Touvron, Ishan Misra 等

2021 9334 引用 ⭐ 高影响力查看解读 →

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Jacob Devlin, Ming-Wei Chang, Kenton Lee 等

2019 116019 引用查看解读 →

The Hungarian method for the assignment problem

H. Kuhn

1955 14465 引用

SCLIP: Rethinking Self-Attention for Dense Vision-Language Inference

Feng Wang, Jieru Mei, Alan L. Yuille

2023 177 引用查看解读 →

Perceiver: General Perception with Iterative Attention

Andrew Jaegle, Felix Gimeno, Andrew Brock 等

2021 1470 引用查看解读 →

SGDR: Stochastic Gradient Descent with Warm Restarts

I. Loshchilov, F. Hutter

2016 10606 引用查看解读 →

Momentum Contrast for Unsupervised Visual Representation Learning

Kaiming He, Haoqi Fan, Yuxin Wu 等

2019 15089 引用查看解读 →

Unsupervised Representation Learning by Predicting Image Rotations

Spyros Gidaris, Praveer Singh, N. Komodakis

2018 3590 引用查看解读 →

RNN as Linear Transformer: A Closer Investigation into Representational Potentials of Visual Mamba Models

Timing Yang, Guoyizhe Wei, Alan L. Yuille 等

2025 1 引用查看解读 →

GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent Representations

Martin Engelcke, Adam R. Kosiorek, Oiwi Parker Jones 等

2019 338 引用查看解读 →

SimMIM: a Simple Framework for Masked Image Modeling

Zhenda Xie, Zheng Zhang, Yue Cao 等

2021 1822 引用查看解读 →

Multi-Object Representation Learning with Iterative Variational Inference

Klaus Greff, Raphael Lopez Kaufman, Rishabh Kabra 等

2019 574 引用查看解读 →

Superpixel Sampling Networks

V. Jampani, Deqing Sun, Ming-Yu Liu 等

2018 283 引用查看解读 →

Perceiver IO: A General Architecture for Structured Inputs & Outputs

Andrew Jaegle, Sebastian Borgeaud, Jean-Baptiste Alayrac 等

2021 844 引用查看解读 →

Layer Normalization

Jimmy Ba, J. Kiros, Geoffrey E. Hinton

2016 12665 引用查看解读 →

iBOT: Image BERT Pre-Training with Online Tokenizer

Jinghao Zhou, Chen Wei, Huiyu Wang 等

2021 1102 引用查看解读 →

RATS! Patches Talk Through Registers: Emergent Parts in Register Attention Transformers

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

原文摘要

参考文献 (20)

相关论文

JanusMesh: Fast and Zero-Shot 3D Visual Illusion Generation via Cross-Space Denoising

UNIEGO: Proxies as Mediators for Unified Egocentric Video Representation Learning

SSD: Spatially Speculative Decoding Accelerates Autoregressive Image Generation

CalTennis: Large Multi-View Tennis Video Dataset and Benchmark of Monocular-to-3D Pose Estimation

Unified Multimodal Autoregressive Modeling with Shared Context-Visual Tokenizer is Key to Unification

EventDrive: Event Cameras for Vision-Language Driving Intelligence

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样