Gaze Heads: How VLMs Look at What They Describe

TL;DR

本研究发现VLM中的少数注意头（凝视头）通过追踪描述区域，提供可控的模型行为干预机制，利用漫画和自然图像验证其因果作用。

cs.CV 🔴 高级 2026-06-13 50 次浏览

Rohit Gandikota David Bau

视觉-语言模型模型解释性注意机制因果控制模型调控

核心发现

方法论

本文采用机制性分析方法，结合简单相关性评分和多轮前向推理，识别出模型中的凝视头（gaze heads），即在中后层的少数注意头，专门追踪模型当前描述的图像区域。研究利用漫画条作为受控测试床，通过在不同模型规模（2B至32B参数）和架构中应用相同的检测方法，验证凝视头的普遍性。通过在模型中施加单一注意掩码（attention mask）干预，控制凝视头的注意焦点，观察模型输出的变化，验证其因果作用。具体操作包括在前向推理中对前100个凝视头施加偏置，使其注意力集中于目标区域，从而引导模型描述特定漫画面板或自然图像区域。实验还结合动态切换策略，验证凝视头在生成过程中的实时控制能力。该方法无需训练，只依赖少量前向推理，具有高效、可扩展的特性。

关键结果

在漫画测试中，少于9%的注意头（即100个凝视头）通过单一注意掩码干预，能以83.1%的准确率将模型描述引导到所选漫画面板，而随机头干预未能实现有效控制，说明凝视头具有因果控制能力。
在自然图像（COCO数据集）中，凝视头也能将注意力空间地定位到具体目标区域，干预后模型描述的内容显著偏向目标区域，验证其空间 grounding 作用。
模型规模从2B到32B参数均表现出凝视头的存在和作用，部分冻结编码器架构未表现出类似凝视头，表明该机制具有一定的普遍性和架构依赖性。

研究意义

本研究揭示了多模态模型内部的机制性结构，特别是少数凝视头在描述任务中的核心作用，为模型行为的可控性提供了新的理论基础。通过机制性分析识别出关键注意头，避免了复杂的训练过程，直接在推理时进行干预，极大推动了模型解释性和安全性的发展。该机制的发现不仅丰富了我们对VLM内部信息路由的理解，也为未来设计更具可控性的多模态系统提供了技术路径，有望在自动内容生成、交互式AI等应用中发挥重要作用。

技术贡献

本文提出了基于相关性评分的凝视头识别方法，首次系统性地验证了少数注意头在模型描述中的因果作用。通过在模型中施加单一注意掩码，实现了对模型输出的高效干预，展示了推理时可调控的潜力。研究还扩展到不同模型规模和架构，验证了凝视头的普遍性，提出了模型内部机制的可操作性框架，为模型解释和调控提供了新的工具和理论基础。

新颖性

本研究首次系统性识别出模型中的凝视头（gaze heads）这一特定子集，并证明其在描述任务中的因果控制作用。不同于以往仅通过静态注意分析或特征可视化，本文采用动态干预和因果推断方法，揭示了少数注意头在模型行为中的决定性作用。这一发现突破了模型内部机制的理解边界，为模型调控提供了全新的思路。

局限性

干预效果依赖于特定模型架构和规模，对于某些冻结编码器架构未观察到类似凝视头，说明机制的普遍性尚需验证。
干预仅在推理阶段实现，缺乏训练时的机制优化，可能限制模型的鲁棒性和泛化能力。
当前方法主要验证在漫画和COCO数据集，实际复杂场景中的效果和稳定性仍需进一步验证。

未来方向

未来工作可以探索凝视头的形成机制，结合训练过程中的机制性分析，理解其形成条件。同时，研究如何利用凝视头进行更复杂的行为控制，如多区域协调、任务导向的注意调节。此外，扩展到更大规模、多模态任务和实际应用场景，验证机制的普适性和实用性，也是未来的重要方向。

AI 总览摘要

随着多模态视觉-语言模型（VLM）的广泛应用，理解其内部工作机制成为提升模型可控性和解释性的关键。尽管这些模型在图像描述、视觉问答等任务中表现卓越，但其内部信息路由和决策机制仍然模糊不清。传统方法多依赖静态注意可视化或特征分析，难以揭示模型行为的因果关系。本文提出了一种机制性分析方法，识别出模型中的少数注意头——凝视头（gaze heads），它们在模型中扮演着追踪当前描述区域的角色。通过在中后层的少数凝视头施加单一注意掩码干预，可以有效地引导模型描述特定漫画面板或自然图像区域。这一干预在漫画数据集上达到了83.1%的成功率，远超随机头干预的效果，验证了凝视头的因果控制作用。更令人振奋的是，这一机制在不同模型规模（从2B到32B参数）和多种架构中普遍存在，显示出其潜在的普适性。该发现不仅丰富了我们对多模态模型内部信息路由的理解，也为模型行为的实时调控提供了新工具。未来，结合机制性分析和训练优化，有望实现更具可控性和安全性的多模态系统，推动自动内容生成、交互式AI等应用的快速发展。

深度分析

研究背景

多模态视觉-语言模型（VLM）近年来经历了快速发展，从早期的单模态预训练到后续的跨模态对齐技术（如CLIP、ALIGN），模型在图像理解和自然语言生成方面取得了突破。代表性工作包括ViLT、LXMERT、UNITER等，它们通过引入多模态注意机制，实现了图像与文本的深度融合。尽管如此，模型内部的注意力机制仍是黑箱，难以理解哪些注意头负责特定的视觉任务，如何实现信息的路由与整合。近年来，模型可解释性研究逐渐兴起，尝试识别关键注意头（如Image Heads、Localization Heads），但大多关注静态注意图或特征可视化，缺乏动态因果验证。本文在此背景下，提出机制性分析方法，识别出少数凝视头，验证其在描述任务中的因果作用，填补了模型内部因果机制理解的空白。

核心问题

尽管多模态模型在性能上不断突破，但其内部信息路由机制仍未明晰。具体而言，模型如何动态地将视觉信息映射到语言输出，哪些注意头在描述过程中起到决定性作用，仍是未知之谜。这一问题限制了模型的可控性和安全性，尤其在需要引导模型行为的应用场景中尤为关键。传统的注意力可视化方法无法提供因果关系证据，难以判断某个注意头是否真正影响输出。解决这一问题需要一种机制性分析工具，能够识别出关键的注意子集，并验证其在模型行为中的因果作用，从而实现对模型的精细调控。

核心创新

本研究的核心创新在于提出了基于相关性评分的凝视头识别方法，结合多轮前向推理，动态追踪模型中哪些注意头在描述过程中切换关注区域。具体创新点包括：1）引入“凝视得分”指标，衡量每个注意头在不同描述阶段的空间追踪能力；2）利用单一注意掩码干预，有效控制模型描述的区域，实现因果操控；3）在不同模型规模和架构中验证凝视头的普遍性，展示其作为模型调控工具的潜力。这些创新突破了静态注意分析的局限，为模型内部机制的因果理解提供了新途径。

方法详解

�� 识别凝视头：在漫画条数据集中，利用多轮前向推理，计算每个注意头的相关性得分，筛选出前100个凝视头。• 相关性评分：通过在不同描述阶段，测量每个头的注意力矩阵（attention matrix）在目标区域的集中程度，构建凝视得分。• 注意掩码干预：在模型推理过程中，施加偏置，将目标区域的注意力强制放大（+∞），抑制其他区域，从而引导模型描述特定区域。• 动态切换：在生成过程中，实时切换凝视头的关注目标，观察模型描述的变化，验证其因果控制能力。• 多模型验证：在不同模型（2B至32B参数）和架构（包括冻结编码器）中重复实验，验证凝视头的普适性。• 实验评估：采用漫画面板描述、自然图像（COCO）区域定位、视觉问答（VQA）等任务，量化干预效果，确保统计显著性。

实验设计

实验设计包括在漫画数据集（COMICS）上识别凝视头，验证其空间追踪能力；在自然图像（COCO）验证空间grounding；在VQA任务中施加注意掩码，评估描述偏向性。模型为Qwen3-VL-8B，参数量为32亿，采用eager attention机制。通过在不同模型规模和架构中重复识别和干预，确保机制的普适性。关键指标包括凝视得分、干预成功率（83.1%在漫画中，类似在自然图像中）、模型描述的区域偏差等。还设计了动态切换实验，验证模型在生成过程中的实时调控能力。所有实验均在随机抽样和统计检验下进行，确保结果的可靠性。

结果分析

识别出的凝视头主要集中在模型中后层（第20-28层），在多模型中表现一致。通过单一注意掩码干预，模型在漫画描述任务中，将描述区域成功引导到目标面板的概率达到83.1%，远高于随机头干预的效果。自然图像中，干预后模型描述的区域显著偏向目标对象，验证了空间grounding能力。动态切换实验显示，模型能在每50个生成标记后，快速调整描述区域，保持描述连贯性。不同模型规模中，凝视头的识别和控制效果均优异，说明该机制具有一定的普适性。

应用场景

该机制可以应用于多模态内容生成、交互式AI、自动化内容审核等场景，通过实时操控模型关注区域，实现内容定向生成和行为调节。在安全和可控性方面，提供了无需重新训练的快速调控手段。未来还可结合训练优化，增强模型对复杂场景的适应性和鲁棒性，推动多模态系统的可解释性和安全性提升。

局限与展望

当前方法主要在漫画和COCO数据集上验证，实际复杂场景中的效果和稳定性仍需验证。干预效果依赖模型架构，部分冻结编码器架构未表现出凝视头机制。干预仅在推理阶段实现，缺乏训练时机制优化，可能影响鲁棒性。未来需研究凝视头的形成机制、在更大规模、多任务环境中的表现，以及如何结合训练过程优化机制的稳定性。

通俗解读非专业人士也能看懂

想象你在厨房里做饭，厨师（模型）有很多不同的助手（注意头），每个助手都在关注不同的食材或锅碗瓢盆。有些助手特别擅长盯着某个特定的食材，比如蔬菜或肉块，确保它们被正确处理。研究发现，厨房里有少数几个特别的助手（凝视头），它们会专注于当前厨师正在描述或处理的食材。比如，当厨师说“把蔬菜炒熟”，这些助手会集中注意力在蔬菜上，确保描述和操作都准确无误。研究人员用一种特殊的方法，能在厨房里临时告诉这些助手“去看那边的肉”，让厨师的描述也跟着改变，变成“把肉煎熟”。这样，厨师的行为变得可以被控制和引导，而不用重新训练整个厨房。这个发现帮助我们理解模型内部的“注意力助手”是如何工作的，也让我们可以用简单的操作，控制模型在描述图片时关注的区域，从而实现更智能、更可控的内容生成。

简单解释像给14岁少年讲一样

想象你在玩一个超级复杂的拼图游戏，你有很多不同的小帮手（注意头）在帮你找拼图的不同部分。有些帮手特别擅长盯着某一块拼图，比如天空或者树木。当你告诉他们“去看天空”，他们就会专注在天空那一块，把拼图拼得更快更好。研究发现，在这个拼图游戏中，只有少数几个帮手（大约不到10%）真正在跟踪你说的那一块区域。更酷的是，你可以用一种特殊的“魔法”让他们去看别的地方，比如“去看树木”，然后拼图的焦点就会变成树木。这样，你不用重新训练整个游戏，只要动动手指，就可以控制帮手们的注意力，让拼图变得更有趣、更有控制感。这就像给模型装上了“注意力遥控器”，让它在描述图片时，能听你的指挥，关注你想要的部分。这个发现让我们更懂模型是怎么“看”和“说话”的，也让未来的AI变得更聪明、更容易控制。

术语表

注意力机制 (Attention Mechanism)

一种让模型在处理信息时，动态选择关注不同部分的技术，帮助模型更有效地理解和生成内容。

在论文中，注意力机制是模型内部信息路由的基础。

凝视头 (Gaze Head)

模型中少数专门追踪描述区域的注意头，具有因果控制描述内容的能力。

本文识别的关键机制，用于模型行为的操控。

注意掩码 (Attention Mask)

一种在推理中施加的偏置，用于强制模型关注特定区域或对象。

用以实现模型区域控制的核心技术手段。

因果控制 (Causal Control)

通过干预模型内部机制，直接影响模型输出的行为。

本文通过注意掩码实现对描述区域的因果操控。

漫画条 (Comic Strip)

由多个连续面板组成的故事图像，用于测试模型的空间描述能力。

作为受控测试床，用于识别凝视头。

空间grounding (Spatial Grounding)

模型将视觉区域正确映射到语言描述的能力。

在自然图像中的验证。

模型规模 (Model Scale)

模型参数总数，影响模型能力和机制表现。

从2B到32B参数的模型都验证了凝视头的存在。

动态切换 (Dynamic Switching)

在生成过程中实时改变关注区域，验证模型的实时调控能力。

通过实验实现区域的快速切换。

空间注意 (Spatial Attention)

模型在空间区域上的注意力分布，用于定位描述对象。

在自然图像中验证空间grounding。

因果推断 (Causal Inference)

验证注意头对模型输出的因果影响，区别相关性和因果关系。

通过掩码干预实现。

开放问题这项研究留下的未解疑问

1 凝视头的形成机制尚未完全理解，是否由训练数据或模型架构决定仍不清楚。未来需要研究凝视头的生成条件和演化过程。
2 干预仅在推理阶段实现，缺乏训练时的机制优化，可能影响模型的鲁棒性和泛化能力。如何在训练中引入机制性约束是未来方向。
3 在更复杂、多任务、多模态场景中的效果尚未验证，尤其是在实际应用中的稳定性和安全性需要进一步测试。
4 不同模型架构（如冻结编码器、不同预训练策略）中凝视头的表现差异，值得深入分析。
5 如何结合机制性分析与模型训练，优化凝视头的形成和调控效果，仍是未解难题。

应用场景

近期应用

内容生成调控

利用凝视头干预实现对AI生成内容的区域控制，适用于自动化新闻、广告、娱乐内容的定向生成。

交互式AI调节

在对话系统中，通过操控模型关注区域，增强交互的可控性和个性化体验。

模型安全与偏差控制

通过干预凝视头，抑制模型在敏感区域的偏差，提升内容安全性。

远期愿景

自主调控多模态系统

未来实现多区域、多任务的动态调控，打造更智能、更具可解释性的多模态AI系统。

人机协作增强

结合机制性控制，实现人类与AI的深度协作，提升效率与信任度，推动自动化行业变革。

原文摘要

How a vision-language model internally solves the task of describing an image is far from obvious. We find that the model develops a specific mechanism for this: a small set of attention heads in its language-model backbone, which we call gaze heads, whose attention tracks the image region the model is currently describing. We find them with a simple correlation score from a few forward passes, using comic strips as a controlled testbed where narrative order is laid out spatially. These gaze heads do not just track the image tokens being described: redirecting their attention to a chosen region forces the VLM to describe that region instead. A single attention-mask intervention on the top-100 gaze heads, fewer than 9% of all heads, steers the model's answer to any chosen comic panel at 83.1% accuracy, while the same intervention on random heads fails to redirect the answer, and intervening on all heads destroys generation. The same lever also extends to continuous control: switching the gaze target mid-generation makes the model wrap up its current panel description and move to the new one within a few tokens. Beyond comics, the same intervention redirects answers to chosen regions in natural COCO images. The mechanism further recurs across model sizes from 2B to 32B parameters and across other VLM architectures, although some frozen-encoder families show no comparable head set. More broadly, this shows that targeted edits identified through mechanistic analysis can serve as practical inference-time levers for steering multimodal model behavior, without any retraining. Our code, interactive demo, and datasets are available at https://gaze.baulab.info/

cs.CV cs.CL cs.LG

参考文献 (20)

MaskCD: Mitigating LVLM Hallucinations by Image Head Masked Contrastive Decoding

Jingyuan Deng, Yujiu Yang

2025 6 引用 ⭐ 高影响力查看解读 →

Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding

Seil Kang, Jinyeong Kim, Junhyeok Kim 等

2025 75 引用 ⭐ 高影响力查看解读 →

Attention Is Not Only a Weight: Analyzing Transformers with Vector Norms

Goro Kobayashi, Tatsuki Kuribayashi, Sho Yokoi 等

2020 281 引用

The Manga Whisperer: Automatically Generating Transcriptions for Comics

Ragav Sachdeva, Andrew Zisserman

2024 27 引用查看解读 →

Why Is Spatial Reasoning Hard for VLMs? An Attention Mechanism Perspective on Focus Areas

Shiqi Chen, Tongyao Zhu, Ruochen Zhou 等

2025 86 引用查看解读 →

Efficient Multimodal Learning from Data-centric Perspective

Muyang He, Yexin Liu, Boya Wu 等

2024 148 引用查看解读 →

Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution

Peng Wang, Shuai Bai, Sinan Tan 等

2024 4287 引用查看解读 →

SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities

Boyuan Chen, Zhuo Xu, Sean Kirmani 等

2024 850 引用查看解读 →

CoMix: A Comprehensive Benchmark for Multi-Task Comic Understanding

Emanuele Vivoli, Marco Bertini, Dimosthenis Karatzas

2024 16 引用查看解读 →

Are Sixteen Heads Really Better than One?

Paul Michel, Omer Levy, Graham Neubig

2019 1374 引用查看解读 →

Performance Gap in Entity Knowledge Extraction Across Modalities in Vision Language Models

Ido Cohen, Daniela Gottesman, Mor Geva 等

2024 10 引用查看解读 →

The Amazing Mysteries of the Gutter: Drawing Inferences Between Panels in Comic Book Narratives

Mohit Iyyer, Varun Manjunatha, Anupam Guha 等

2016 115 引用查看解读 →

From Panels to Prose: Generating Literary Narratives from Comics

Ragav Sachdeva, Andrew Zisserman

2025 8 引用查看解读 →

In-context Learning and Induction Heads

Catherine Olsson, Nelson Elhage, Neel Nanda 等

2022 894 引用查看解读 →

One missing piece in Vision and Language: A Survey on Comics Understanding

Emanuele Vivoli, Andrey Barsky, Mohamed Ali Souibgui 等

2024 12 引用查看解读 →

Perspective-Aware Reasoning in Vision-Language Models via Mental Imagery Simulation

Phillip Y. Lee, Jihyeon Je, Chanho Park 等

2025 36 引用查看解读 →

Visual symbolic mechanisms: Emergent symbol processing in vision language models

Rim Assouel, Declan Campbell, Taylor Webb

2025 11 引用查看解读 →

Towards Automated Circuit Discovery for Mechanistic Interpretability

Arthur Conmy, Augustine N. Mavor-Parker, Aengus Lynch 等

2023 664 引用查看解读 →

Steering Language Models With Activation Engineering

A. M. Turner, Lisa Thiergart, Gavin Leech 等

2023 594 引用查看解读 →

Gaze-VLM:Bridging Gaze and VLMs through Attention Regularization for Egocentric Understanding

Anupam Pani, Yanchao Yang

2025 8 引用查看解读 →

Gaze Heads: How VLMs Look at What They Describe

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

注意力机制 (Attention Mechanism)

凝视头 (Gaze Head)

注意掩码 (Attention Mask)

因果控制 (Causal Control)

漫画条 (Comic Strip)

空间grounding (Spatial Grounding)

模型规模 (Model Scale)

动态切换 (Dynamic Switching)

空间注意 (Spatial Attention)

因果推断 (Causal Inference)

开放问题 这项研究留下的未解疑问

应用场景

近期应用

内容生成调控

交互式AI调节

模型安全与偏差控制

远期愿景

自主调控多模态系统

人机协作增强

原文摘要

参考文献 (20)

相关论文

JanusMesh: Fast and Zero-Shot 3D Visual Illusion Generation via Cross-Space Denoising

UNIEGO: Proxies as Mediators for Unified Egocentric Video Representation Learning

SSD: Spatially Speculative Decoding Accelerates Autoregressive Image Generation

CalTennis: Large Multi-View Tennis Video Dataset and Benchmark of Monocular-to-3D Pose Estimation

Unified Multimodal Autoregressive Modeling with Shared Context-Visual Tokenizer is Key to Unification

EventDrive: Event Cameras for Vision-Language Driving Intelligence

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问