Normal Guidance is what Attention Needs

TL;DR

提出Normal Guidance正态引导正则化方法，提升基于注意力的MIL在4百万切片CT数据上的切片级定位性能。

cs.LG 🔴 高级 2026-05-27 80 次浏览

Ethan Harvey Dennis Johan Loevlie Michael C. Hughes

多实例学习注意力机制医学影像弱监督学习正则化技术

核心发现

方法论

本文针对3D医学影像弱监督分类问题，提出Normal Guidance（正态引导）正则化技术，鼓励注意力权重分布接近钟形曲线。基于多实例学习（MIL）框架，利用注意力机制为每个2D切片分配权重，结合经验均值和方差构建正态分布作为参考分布，通过最小化注意力权重与正态分布的KL散度或平方误差，实现对注意力分布的引导。该方法兼容传统基于注意力的MIL（ABMIL）和基于Transformer的TransMIL，支持多头扩展以捕捉多区域关注。实验涵盖头部、胸部和腹部CT三大公开数据集，超过400万张切片，采用冻结ViT编码器与线性分类器，严格弱监督训练，仅使用体积级标签，切片级标签仅用于评估。

关键结果

Normal Guidance在三个CT数据集的切片级定位AUROC分别达到0.871（头部CT）、0.866（胸部CT）和0.663（腹部CT），均显著优于传统ABMIL、TransMIL及Smooth Operator方法，且超越了简单的中心高斯基线（胸部CT基线0.78，NG达0.866）。
在体积级分类任务中，Normal Guidance保持与最先进方法相当的性能，头部CT任务AUROC达0.925，接近基于实例标签的上限（0.927），显示正则化未损害整体分类能力。
多头Normal Guidance进一步提升了定位性能，特别是在存在多个非连续病灶的场景中，表现出更强的空间关注能力，且在半合成数据集上达到0.706的切片定位AUROC，接近最佳上限0.884。

研究意义

本研究针对3D医学影像弱监督切片级定位难题，突破了传统注意力机制在定位上的不足，首次系统验证了简单中心高斯基线的强大表现，并基于此提出了引导注意力分布的正则化策略。该方法有效融合了空间先验与数据驱动特征，显著提升了切片级定位精度，同时保持体积级分类性能，推动了弱监督MIL技术在临床医学影像中的可解释性和实用性。此成果为未来弱标注环境下的精准病灶定位和辅助诊断提供了坚实基础，具有重要的学术和临床应用价值。

技术贡献

本文创新性地引入了基于经验均值和方差的正态分布作为注意力权重的参考分布，通过最小化KL散度或平方误差实现对注意力分布的正则化，解决了传统注意力机制缺乏空间先验导致定位性能不足的问题。提出的Multi-Head Normal Guidance扩展了单峰限制，允许模型关注多个空间不连续区域，提升了多病灶场景的表现。实验中采用冻结ViT编码器与线性分类器架构，确保方法的计算效率和泛化能力。该方法不仅提升了定位精度，也为弱监督MIL引入了新的设计范式，具有广泛的工程和理论意义。

新颖性

本工作首次系统地将基于正态分布的先验引入注意力机制的多实例学习中，明确提出并验证了正态引导（Normal Guidance）正则化策略，突破了以往仅依赖数据驱动注意力权重的局限。相比以往的注意力熵最大化或均匀分布正则化方法，Normal Guidance结合了临床空间先验，显著提升了切片级定位性能，且首次提出多头正态引导以解决多区域关注问题，填补了弱监督3D医学影像定位领域的空白。

局限性

本方法未对阴性样本的注意力分布进行深入分析，阴性包的注意力应如何合理分布仍是开放问题，可能影响模型的解释性和泛化。
注意力权重虽与专家标注更一致，但不能保证其因果性，即被关注的切片不一定是决策的直接原因，限制了模型解释的可信度。
采用冻结ViT编码器和线性分类器简化训练，虽提升效率但限制了模型表达能力，未探索端到端微调可能带来的性能提升。

未来方向

未来工作将探索针对阴性包的注意力正则化策略，提升模型对负样本的解释能力；研究基于标签条件的动态参考分布设计，以适应不同病理状态；此外，结合参数高效微调技术，提升编码器的适应性和表达能力；最后，扩展方法至全切片病理图像（WSI）等更复杂空间依赖场景，推动弱监督MIL在临床多模态影像中的广泛应用。

AI 总览摘要

3D医学影像的自动化分析是现代医疗诊断的重要方向，尤其是在资源有限的弱监督环境下，如何准确定位病灶切片成为关键挑战。传统多实例学习（MIL）利用注意力机制为每个切片分配权重，试图实现切片级分类与定位，但近期研究发现，忽略图像内容、仅基于切片空间位置的中心高斯基线竟能超越复杂的注意力和Transformer模型，暴露了现有方法在空间先验利用上的不足。

针对这一现象，本文提出了Normal Guidance正态引导正则化方法，通过引导注意力权重分布接近经验正态分布，融合了空间位置的临床先验，提升了模型对切片级病灶的定位能力。该方法兼容现有的基于注意力的MIL（ABMIL）和Transformer MIL（TransMIL），并进一步通过多头扩展支持多区域关注，解决了单峰注意力的局限。

技术上，Normal Guidance计算每个扫描注意力权重的均值和方差，构建对应的正态分布作为参考，通过最小化注意力权重与该分布的KL散度或平方误差，实现对注意力分布的正则化。该策略不仅保留了数据驱动的灵活性，还引入了强有力的空间先验，显著提升了切片定位的准确性。

在涵盖头部、胸部和腹部三大CT公开数据集的超过400万张切片的实验中，Normal Guidance显著优于传统MIL方法和中心高斯基线，切片级定位AUROC最高提升至0.871，且保持体积级分类性能接近最佳上限。多头扩展进一步提升了多病灶场景的表现，验证了方法的广泛适用性。

该研究不仅为弱监督3D医学影像切片定位提供了新的范式，也为临床辅助诊断的可解释性和准确性奠定了基础。未来工作将聚焦于阴性样本的注意力设计、标签条件的动态正则化以及端到端微调策略，推动该方法在多模态医学影像中的应用和发展。

深度分析

研究背景

随着深度学习技术的发展，3D医学影像分析已成为疾病诊断和治疗规划的重要工具。传统方法依赖于大量精细标注的切片级标签，然而获取这些标签成本高昂且耗时。弱监督学习，尤其是多实例学习（MIL），通过仅使用体积级标签实现训练，成为解决此问题的有效途径。近年来，基于注意力机制的MIL（如ABMIL）和Transformer架构（如TransMIL）被广泛应用于3D医学影像的分类和定位任务，因其能够为每个切片分配权重，提供一定的解释性。然而，最新研究表明，忽略图像内容、仅基于切片空间位置的中心高斯基线在脑部CT定位任务中表现优于复杂的MIL方法，揭示了现有注意力机制在空间先验利用上的不足。此发现促使研究者重新审视注意力机制的设计，探索如何结合空间先验以提升定位性能。

核心问题

核心问题在于如何在仅有体积级二元标签的弱监督环境下，实现对3D医学影像中具体切片的准确定位。现有基于注意力的MIL方法虽能生成切片权重，但缺乏有效的空间先验引导，导致定位性能不佳，甚至不及简单的中心高斯基线。此外，Transformer等复杂模型虽引入实例间依赖建模，但仍未突破这一瓶颈。该问题的重要性体现在临床诊断中，准确的切片定位有助于医生快速识别病灶，提高诊断效率和可信度。解决该问题的难点包括如何设计有效的正则化机制，引导注意力权重合理分布，同时保持整体分类性能。

核心创新

本文的核心创新包括：

�� 提出Normal Guidance正态引导正则化，通过计算注意力权重的经验均值和方差，构建正态分布参考，实现对注意力分布的引导，融合空间先验。

�� 设计多头Normal Guidance扩展，允许模型同时关注多个空间不连续区域，解决单峰注意力的局限，适应多病灶场景。

�� 系统验证该方法在三个大规模CT数据集（头部、胸部、腹部）上的有效性，覆盖超过400万张切片，显著提升切片级定位性能，同时保持体积级分类准确性。

这些创新突破了传统MIL仅依赖数据驱动注意力的局限，首次将临床空间先验与注意力机制深度结合，推动弱监督3D医学影像定位技术的发展。

方法详解

本文方法详解：

�� 输入与编码：输入为3D医学影像的2D切片集合，每个切片通过预训练的ViT编码器（embedding size 768）提取特征，生成实例级嵌入。

�� 多实例学习框架：采用基于注意力的MIL（ABMIL）或Transformer MIL（TransMIL）对切片嵌入进行加权池化，生成体积级表示。

�� Normal Guidance正则化：
计算当前注意力权重分布的经验均值和方差，构建对应的离散正态分布作为参考分布。
设计正则化项，最小化注意力权重与参考正态分布之间的KL散度（正向或反向）或平方误差。
通过梯度下降优化，利用stop-gradient操作确保参考分布固定，引导注意力权重趋向钟形曲线。

�� 多头扩展：针对Transformer多头自注意力，分别为每个头计算独立的正态参考分布，正则化项为各头散度的平均，形成类似高斯混合模型的多峰注意力分布。

�� 训练细节：采用冻结ViT编码器和线性分类器头，使用二元交叉熵损失结合正则化项，训练过程中仅使用体积级标签，切片级标签仅用于评估。

�� 实验设置：在三个公开CT数据集上进行，严格划分训练、验证、测试集，采用AUROC和AUPRC评估切片级定位和体积级分类性能。

实验设计

实验设计包括：

�� 数据集：头部CT（21,744扫描，752,803切片，脑出血标签）、胸部CT（7,279扫描，1,790,594切片，肺栓塞标签）、腹部CT（4,711扫描，1,500,653切片，腹部创伤标签），共计超过400万切片。

�� 基线方法：传统ABMIL、TransMIL、Smooth Operator以及简单中心高斯基线。

�� 评价指标：切片级定位AUROC（仅正样本包）、体积级分类AUROC，AUPRC附录提供。

�� 超参数调优：正则化强度、学习率等，通过验证集早停。

�� 上限模型：设计基于实例标签的定位和分类上限模型，作为性能参考。

�� 消融实验：比较不同正则化散度（平方误差、正向KL、反向KL）、单头与多头正态引导效果。

�� 训练细节：冻结ViT编码器，线性分类器，批量大小64，训练1000轮，三次随机划分重复实验。

结果分析

主要结果分析：

�� 切片级定位：Normal Guidance在头部CT上AUROC达0.871，胸部CT0.866，腹部CT0.663，均显著优于传统MIL和Smooth Operator，且超越中心高斯基线（胸部CT基线0.78）。多头扩展进一步提升定位性能，尤其适合多病灶场景。

�� 体积级分类：Normal Guidance保持与最先进方法相当的性能，头部CT达0.925，接近基于实例标签的上限0.927，表明正则化未损害整体分类能力。

�� 消融分析：正向KL散度正则化效果最佳，正态引导强度适中时性能最优，过强或过弱均影响结果。

�� 视觉分析：注意力权重更集中且符合临床病灶分布，提升模型解释性。

�� Transformer MIL相较ABMIL在分类上略有提升，但定位改进有限，强调正态引导的重要性。

应用场景

本方法适用于临床3D医学影像的弱监督病灶定位与分类，特别是在缺乏切片级标签的环境中。可辅助放射科医生快速识别关键切片，提高诊断效率和准确性。适配多种器官CT扫描（脑、胸、腹），具备良好泛化能力。未来可扩展至全切片病理图像（WSI）和多模态影像，推动自动化辅助诊断系统的发展，降低标注成本，提升临床决策支持的可靠性和透明度。

局限与展望

本研究存在以下局限：

�� 阴性包的注意力分布未被充分研究，如何合理设计负样本的注意力仍是挑战，可能影响模型的整体解释性。

�� 注意力权重虽与专家标注更接近，但不保证因果解释，关注切片不一定是决策直接依据，限制了模型的可信解释。

�� 采用冻结ViT编码器和线性分类器简化训练，限制了模型表达能力，未探索端到端微调可能带来的性能提升。

�� 训练计算成本较高，尤其是Transformer模型，限制了大规模应用的便捷性。

原文摘要

We consider training classifiers for 3D medical images using only one binary label for the entire volume rather than a label for each 2D slice. In such weakly supervised settings, can we learn accurate classifiers for slice-level predictions? Attention-based multiple instance learning (MIL) can produce an attention score for every slice. Yet recent work demonstrates that a simple center-focused baseline that ignores image content can outperform attention-based and transformer-based MIL at slice-level classification of 3D brain scans. We show this baseline also outperforms existing MIL at slice-level classification of thoracic and abdominal CT scans. Motivated by this baseline, we propose Normal Guidance, a regularization technique that encourages the learned attention distribution to follow a bell-shaped curve. Across three medical imaging datasets totaling over 4 million 2D slices, we show our Normal Guidance enables attention-based and transformer-based MIL methods to deliver significantly better slice-level localization than the state-of-the-art while remaining competitive at whole-scan classification.

cs.LG

参考文献 (20)

Sm: enhanced localization in Multiple Instance Learning for medical imaging classification

Francisco M. Castro-Mac'ias, Pablo Morales-Álvarez, Yunan Wu 等

2024 16 引用 ⭐ 高影响力查看解读 →

TransMIL: Transformer based Correlated Multiple Instance Learning for Whole Slide Image Classication

Zhucheng Shao, Hao Bian, Yang Chen 等

2021 1208 引用 ⭐ 高影响力查看解读 →

Data-efficient and weakly supervised computational pathology on whole-slide images

Ming Y. Lu, Drew F. K. Williamson, Tiffany Y. Chen 等

2020 2065 引用 ⭐ 高影响力查看解读 →

Deep Multi-instance Networks with Sparse Label Assignment for Whole Mammogram Classification

Wentao Zhu, Qi Lou, Y. S. Vang 等

2016 296 引用查看解读 →

Combining Attention-based Multiple Instance Learning and Gaussian Processes for CT Hemorrhage Detection

Yunan Wu, Arne Schmidt, E. Hernández-Sánchez 等

2021 33 引用

Patch2Loc: Learning to Localize Patches for Unsupervised Brain Lesion Detection

H. Baker, Austin J. Brockmeier

2025 1 引用查看解读 →

Patched Diffusion Models for Unsupervised Anomaly Detection in Brain MRI

Finn Behrendt, Debayan Bhattacharya, Julia Kruger 等

2023 73 引用查看解读 →

Synthetic Data Reveals Generalization Gaps in Correlated Multiple Instance Learning

Ethan Harvey, D. Loevlie, Michael C. Hughes

2025 1 引用查看解读 →

PSA-MIL: A Probabilistic Spatial Attention-Based Multiple Instance Learning for Whole Slide Image Classification

Sharon Peled, Y. Maruvka, Moti Freiman

2025 1 引用查看解读 →

Real-World Anomaly Detection in Surveillance Videos

Waqas Sultani, Chen Chen, M. Shah

2018 1972 引用查看解读 →

Semantics-Aware Attention Guidance for Diagnosing Whole Slide Images

Kechun Liu, Wenjun Wu, J. Elmore 等

2024 6 引用查看解读 →

Recommendations for Processing Head CT Data

J. Muschelli

2019 53 引用

ChestX-Ray8: Hospital-Scale Chest X-Ray Database and Benchmarks on Weakly-Supervised Classification and Localization of Common Thorax Diseases

Xiaosong Wang, Yifan Peng, Le Lu 等

2017 3381 引用查看解读 →

ImageNet: A large-scale hierarchical image database

Jia Deng, Wei Dong, R. Socher 等

2009 73292 引用

Reproducibility in Multiple Instance Learning: A Case For Algorithmic Unit Tests

Edward Raff, James Holt

2023 14 引用查看解读 →

RSNA 2023 Abdominal Trauma AI Challenge Review and Outcomes Analysis.

Sebastiaan Hermans, Zixuan Hu, Robyn L. Ball 等

2024 12 引用

Detecting Heart Disease from Multi-View Ultrasound Images via Supervised Attention Multiple Instance Learning

Zhe Huang, B. Wessler, M. Hughes

2023 13 引用查看解读 →

Deep MIML Network

Ji Feng, Zhi-Hua Zhou

2017 198 引用

Dual-stream Multiple Instance Learning Network for Whole Slide Image Classification with Self-supervised Contrastive Learning

Bin Li, Yin Li, K. Eliceiri

2020 939 引用查看解读 →

The RSNA Pulmonary Embolism CT Dataset.

E. Colak, F. Kitamura, Stephen Hobbs 等

2021 121 引用

Normal Guidance is what Attention Needs

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

原文摘要

参考文献 (20)

相关论文

Execution-State Capsules: Graph-Bound Execution-State Checkpoint and Restore for Low-Latency, Small-Batch, On-Device Physical-AI Serving

On the Oracle Complexity of Interpolation-Based Gradient Descent

STARE: Surprisal-Guided Token-Level Advantage Reweighting for Policy Entropy Stability

Zero-Shot Active Feature Acquisition via LLM-Elicitation

Looped World Models

Kolmogorov Regression for Robust Diffusion Policies