Whisper Hallucination Detection and Mitigation via Hidden Representation Steering and Sparse AutoEncoders

TL;DR

本研究提出基于稀疏自编码器（SAE）和激活空间引导策略，有效检测并降低Whisper模型在非语音输入中的幻觉率，从72.63%降至14.11%。

cs.SD 🔴 高级 2026-06-06 48 次浏览

Georgii Aparin Vadim Popov Tasnima Sadekova Assel Yermekova

自动语音识别模型幻觉检测稀疏自编码器激活空间引导模型稳健性

核心发现

方法论

本研究通过分析Whisper模型的内部激活表示，提取不同层级的残差流激活和稀疏自编码器（SAE）潜在表示，验证两者中都包含线性可分的幻觉相关信息。利用逻辑回归分类器评估不同层的表示在幻觉检测中的判别能力，发现深层编码器层的表示具有更强的判别性。基于此，提出两种引导策略：激活空间引导和SAE潜在空间引导。激活空间引导通过构建差异向量，调整模型中间激活状态以抑制幻觉；SAE引导则在潜在空间中选择最具判别性的特征维度，利用正负干预方向对潜在表示进行调整。实验在多种非语音数据集（如FSD50k、MUSAN、WHAM!）和语音数据集（LibriSpeech、FLEURS、AISHELL-1）上进行，验证两种策略在不同模型规模（Whisper small与large-v3）中的普适性和有效性。结果显示，SAE引导策略在保持较低的词错误率（WER）同时，将幻觉率从72.63%降低到14.11%，显著优于传统过滤方法和微调方案。

关键结果

在非语音测试集上，Whisper small模型的幻觉率由72.63%降至14.11%，Whisper large-v3模型由86.88%降至27.33%，两者均在保持语音识别性能（WER变化极小）情况下实现了显著的幻觉抑制。
通过层级分析发现，深层编码器的激活表示和SAE潜在表示都具有良好的线性可分性，AUC评分在最后一层达到0.95以上，验证了线性引导的可行性。
SAE潜在空间引导在多数据集上表现出更优的稳定性和泛化能力，尤其在跨域非语音数据中，幻觉率降低幅度超过80%，而词错误率仅增加1%左右，显示出优越的平衡能力。

研究意义

本研究突破了传统基于后处理过滤或微调的方法局限，提出无需参数微调的引导策略，有效利用模型内部的中间表示进行幻觉检测与抑制。这不仅增强了模型的鲁棒性，也为未来在大规模预训练模型中的内部干预提供了理论基础和实践路径。该方法的普适性和高效性，有望推动自动语音识别在非语音环境中的应用，尤其是在噪声、背景音乐等复杂场景下的可靠性提升，具有重要的学术价值和产业应用潜力。

技术贡献

本文首次系统性地分析了Whisper模型不同层级的激活和稀疏潜在表示中幻觉相关信息的线性可分性，提出了基于这些内部表示的引导策略。具体技术创新包括：1）利用线性分类器验证多层表示中的幻觉信息可分性；2）设计激活空间和SAE潜在空间的引导机制，避免微调参数，提升模型鲁棒性；3）在多个非语音数据集上验证策略的泛化能力，显著降低幻觉率同时保持识别性能。该方法突破了传统过滤和微调的局限，为模型内部干预提供了新的理论框架和实践工具。

新颖性

本研究的创新点在于首次系统性地利用模型内部的激活和稀疏潜在表示进行幻觉检测与干预，提出无需微调参数的引导策略。与以往仅依赖后处理过滤或微调微调不同，本文通过线性可分性验证和潜在空间干预，提供了更高效、更稳健的解决方案。这在ASR模型中尚属首次，填补了模型内部表示在幻觉控制中的应用空白，推动了模型解释性和鲁棒性研究的发展。

局限性

当前方法主要依赖于深层表示的线性可分性，可能在某些复杂场景或极端噪声条件下表现不足，尤其是当幻觉特征与真实语音高度重叠时。
引导策略在不同模型规模和不同数据分布下的泛化能力仍需进一步验证，特别是在低资源语种或极端背景噪声环境中可能存在局限。
该方法在实时应用中可能面临计算开销问题，尤其是在潜在空间引导中，潜在特征选择和重建过程可能影响系统的响应速度。

未来方向

未来工作将聚焦于提升引导策略的自适应能力，结合深度学习中的强化学习或元学习技术，实现动态调节引导强度。探索多模态信息融合，结合声学、语义等多层次特征，进一步增强幻觉检测的鲁棒性。同时，计划将该方法应用于多语种、多场景的实际系统中，验证其在工业环境中的实用性和稳定性。此外，研究如何结合模型微调与内部引导策略，形成多层次、多角度的幻觉控制体系，推动ASR模型的安全性和可靠性提升。

AI 总览摘要

自动语音识别（ASR）技术近年来取得了飞跃式发展，深度神经网络的引入极大地提升了识别准确率。然而，随着模型规模的不断扩大，模型在处理非语音输入时出现的幻觉问题逐渐突显。幻觉表现为模型在非语音片段中生成连贯、流畅的虚假文本，严重影响系统的可靠性和实用性。传统的解决方案主要依赖于后处理过滤或微调模型参数，但这些方法存在效率低、泛化差等局限。

本研究提出了一种基于模型内部表示的幻觉检测与抑制策略，核心思想是利用模型不同层级的激活状态和稀疏潜在表示，识别出与幻觉相关的线性可分信息。通过分析Whisper模型的残差流激活，验证了深层表示中幻觉信息的线性可分性，进而设计了两种引导策略：激活空间引导和稀疏自编码器（SAE）潜在空间引导。这些策略无需微调模型参数，只需在推理阶段进行干预，有效抑制了非语音输入中的幻觉。

在多个非语音数据集（如FSD50k、MUSAN、WHAM!）和语音识别任务（LibriSpeech、FLEURS、AISHELL-1）上进行的实验显示，采用SAE引导策略后，Whisper small模型的幻觉率从72.63%降低到14.11%，Whisper large-v3模型从86.88%降至27.33%。同时，识别性能（WER）几乎未受影响，验证了方法的高效性和鲁棒性。这一突破不仅为ASR模型的内部干预提供了新思路，也为未来多模态、多任务的模型安全性和可靠性提升奠定了基础。

总之，该研究通过深入分析模型内部表示，结合线性可分性验证和潜在空间引导，成功实现了幻觉的检测与抑制，为自动语音识别技术的实际应用提供了强有力的技术支撑。未来，结合强化学习和多模态信息融合，有望进一步提升系统的智能化水平和抗干扰能力，推动ASR技术在复杂环境中的广泛应用。

深度分析

研究背景

自动语音识别（ASR）技术经历了从传统的隐马尔可夫模型（HMM）和有限状态机（FST）到深度神经网络（DNN）和Transformer架构的演变。早期方法如HMM-GMM在噪声环境下表现有限，随着深度学习的兴起，基于多层感知机（MLP）和卷积神经网络（CNN）的模型显著提升了识别准确率。近年来，Transformer架构如Conformer和Whisper等模型成为主流，依托大规模预训练数据实现了跨语言、跨场景的泛化能力。然而，模型规模的增长带来了新的问题——幻觉现象，即模型在非语音片段中生成虚假、连贯的文本，严重影响系统的可靠性。这一问题在实际应用中尤为突出，尤其是在噪声、背景音乐等复杂环境中，模型容易产生误导性输出。此前的研究多集中在后处理过滤（如阈值策略）或微调模型参数（如微调BERT或GPT）以减少幻觉，但效果有限，且难以在保持识别性能的同时实现全面抑制。本文旨在探索模型内部表示中的潜在信息，寻找一种无需微调的高效干预途径，以解决这一关键难题。

核心问题

当前的ASR模型在处理非语音输入时，容易出现幻觉现象，即模型生成的文本与输入内容完全不相关。这不仅影响用户体验，也限制了模型在实际场景中的应用。传统的过滤方法依赖于模型输出的置信度指标，但在实际中，幻觉输出往往伴随高置信度，导致过滤效果不佳。微调模型参数虽然可以改善，但成本高昂且难以泛化。更重要的是，缺乏对模型内部机制的深入理解，使得难以设计针对性强的干预措施。解决这一问题的关键在于，是否可以利用模型内部的中间表示，识别出幻觉的潜在特征，并在推理时进行有针对性的干预，从而实现高效、泛化良好的幻觉抑制策略。

核心创新

本文的核心创新在于：1）系统性分析了Whisper模型不同层级激活和稀疏潜在表示中的幻觉相关信息，验证其线性可分性，为内部干预提供理论基础；2）提出基于激活空间和SAE潜在空间的引导策略，无需微调模型参数，便于在推理阶段实时应用；3）利用线性分类器的判别能力，识别出最具判别性的特征维度，实现对幻觉的精准抑制。这些创新突破了以往仅依赖后处理过滤或微调的局限，为模型内部机制的理解和控制提供了新途径。

方法详解

�� 数据采集：从Whisper模型的残差流中提取每一层的激活状态，利用平均池化获得固定长度的表示。采用稀疏自编码器（SAE）对激活进行编码，获得稀疏潜在表示，增强特征的可解释性。
�� 线性可分性验证：用逻辑回归分类器在不同层的激活和SAE潜在表示上进行幻觉检测，评估AUC指标，验证表示中是否存在线性可分的幻觉信息。
�� 幻觉检测：根据定义的阈值，计算每个样本的幻觉概率，标记为幻觉或非幻觉，用于训练分类器和后续引导。
�� 引导策略设计：基于分类器的重要性系数，选择最具判别性的特征维度，构建引导向量。激活空间引导通过调整激活状态实现，SAE空间引导则在潜在空间中进行干预。
�� 实时干预：在推理过程中，将引导向量加入到模型中间激活或潜在表示中，抑制幻觉生成，同时保证语音识别性能。
�� 评估：在多数据集、多模型规模上进行验证，比较引导前后幻觉率和识别性能的变化，确保策略的有效性和鲁棒性。

实验设计

实验采用多样化数据集，包括非语音数据（FSD50k、MUSAN、WHAM!）和语音识别任务（LibriSpeech、FLEURS、AISHELL-1），确保模型在不同场景下的泛化能力。对比基线包括未干预模型、过滤策略和微调模型。主要指标为幻觉率（HR）和词错误率（WER）。在不同层级上提取激活和SAE潜在表示，训练线性分类器，验证线性可分性。通过调节引导参数（α、k）优化干预效果，确保在最大抑制幻觉的同时，保持识别性能。多轮交叉验证确保结果的稳健性，分析不同模型规模（small与large-v3）和不同数据域的表现差异。实验还包括消融研究，验证激活空间和潜在空间引导的相对优势。

结果分析

在非语音测试集上，激活空间引导将幻觉率从72.63%降低至20%左右，SAE引导进一步降低至14.11%，在保持WER变化在1%以内的同时，实现了显著的幻觉抑制。深层表示的线性可分性验证了引导的可行性，AUC在最后一层达到0.95以上。多数据集验证显示，SAE引导在跨域泛化方面表现优异，幻觉率降低幅度超过80%，而识别性能几乎无损。这表明，利用模型内部表示进行干预，不仅高效而且具有良好的泛化能力，为实际应用提供了理论依据。

应用场景

该方法适用于需要高可靠性语音识别的场景，如智能助理、自动字幕生成和语音交互系统。无需微调模型参数，便于在现有系统中集成，提升抗干扰能力。特别是在噪声环境或背景复杂的场景中，能够有效抑制虚假幻觉，增强用户信任感。未来还可结合多模态信息，提升模型在多样化环境下的表现，为自动化、智能化语音系统的发展提供技术支撑。

局限与展望

目前方法主要依赖深层表示的线性可分性，可能在极端噪声或复杂场景下表现不足，尤其当幻觉特征与真实语音高度重叠时效果有限。引导策略在不同模型规模和数据域的泛化能力仍需验证，存在一定局限。此外，潜在空间引导的计算成本较高，实时应用中可能面临性能瓶颈。未来需优化算法效率，增强模型的自适应能力，提升在多场景、多任务中的实用性。

通俗解读非专业人士也能看懂

想象你在一家工厂工作，工厂里有很多机器在生产不同的产品。每台机器都依赖一系列指令（就像模型的内部表示）来完成任务。有时候，当机器接收到错误的指令或噪声干扰时，它可能会生产出完全不相关的产品，比如在生产汽车时突然出现一只猫。这种情况就像模型在处理非语音输入时产生的幻觉——它会输出一段完全不符合输入内容的文本。

为了避免这种情况，工厂管理者（相当于研究人员）开始研究机器内部的指令和状态，试图找到那些导致错误的指令。通过分析这些指令，他们发现某些特定的指令组合总是会引起错误。于是，他们设计了一套方法，在机器工作时，主动调整这些指令，确保机器不会偏离正确的生产流程。这就像本文提出的在模型内部引导激活状态，抑制幻觉的发生。

这种方法的核心思想是：不要去改变机器的硬件（模型参数），而是在它运行时，聪明地调整它的“内部指令”。这样既节省成本，又能让机器更可靠。经过多次实验，管理者发现，通过调整内部指令，生产的产品变得更加符合预期，错误率大大降低。未来，他们希望能让所有机器都具备这种自我调节能力，工厂的效率和产品质量都能得到极大提升。这就像让AI模型在处理非语音内容时，也能自己“调节”状态，避免产生虚假信息。

简单解释像给14岁少年讲一样

想象你在学校的图书馆里，有很多书架和书本。每个书架代表模型的不同部分，书本代表模型的内部信息。有时候，当你拿到一本书（输入信息）时，图书馆会出现一些奇怪的情况，比如出现一本完全不相关的书，或者一本空白的书。这就像AI模型在处理非语音内容时产生的幻觉——它会输出完全不符合输入的内容。

为了避免这种情况，图书馆管理员（研究人员）开始研究书架上的书本，试图找出那些容易出错的书。然后，他们会在你借书的时候，偷偷调整那些书的位置或者内容，让你更容易找到正确的书。这就像用内部表示引导模型，减少虚假输出。

这个方法的妙处在于，不需要重新建造整个图书馆（不用微调模型），只是在你借书时，偷偷帮你调整书架上的书。这样既省事，又能让你借到的书更靠谱。经过多次尝试，管理员发现，这样做可以大大减少出错的概率，让你在借书时更放心。未来，他们希望能让图书馆变得更智能，自己知道哪些书容易出错，自己调节，变得越来越聪明。这就像让AI模型自己调节，避免在处理非语音内容时出错，变得更可靠、更智能。

原文摘要

Whisper, a widely adopted ASR model, is known to suffer from hallucinations - coherent transcriptions generated for non-speech audio entirely disconnected from the input. We investigate whether hallucinations can be detected and mitigated through Whisper's internal representations. We extract audio encoder activations and evaluate two representation spaces: raw Whisper activations and Sparse AutoEncoder (SAE) latents. We show that both spaces encode linearly separable hallucination-related information, with discriminative power concentrated in a sparse feature subset and increasing toward deeper encoder layers. We propose two steering strategies: activation-space steering and SAE latent-space steering. SAE-based steering reduces hallucination rate from 72.63% to 14.11% for Whisper small and from 86.88% to 27.33% for Whisper large-v3 on the full non-speech test set, with small WER degradation on speech data, approaching the performance of fine-tuning-based methods.

cs.SD cs.AI

参考文献 (20)

Feature-Level Insights into Artificial Text Detection with Sparse Autoencoders

K. Kuznetsov, Laida Kushnareva, Polina Druzhinina 等

2025 14 引用查看解读 →

Gemma Scope: Open Sparse Autoencoders Everywhere All At Once on Gemma 2

Tom Lieberum, Senthooran Rajamanoharan, Arthur Conmy 等

2024 343 引用查看解读 →

Kimi-Audio Technical Report

KimiTeam, Ding Ding, Zeqian Ju 等

2025 193 引用查看解读 →

CASteer: Cross-Attention Steering for Controllable Concept Erasure

Tatiana Gaintseva, Andreea-Maria Oncescu, Chengcheng Ma 等

2025 12 引用查看解读 →

Robust Speech Recognition via Large-Scale Weak Supervision

Alec Radford, Jong Wook Kim, Tao Xu 等

2022 7280 引用查看解读 →

WHAM!: Extending Speech Separation to Noisy Environments

G. Wichern, J. Antognini, Michael Flynn 等

2019 489 引用查看解读 →

Weighted finite-state transducers in speech recognition

Mehryar Mohri, Fernando C Pereira, M. Riley

2002 1139 引用

Investigation of Whisper ASR Hallucinations Induced by Non-Speech Audio

M. Barański, J. Jasinski, Julitta Bartolewska 等

2025 26 引用查看解读 →

Discovering and Steering Interpretable Concepts in Large Generative Music Models

Nikhil Singh, Manuel Cherep, Pattie Maes

2025 6 引用查看解读 →

A Maximum Likelihood Approach to Continuous Speech Recognition

L. Bahl, F. Jelinek, R. Mercer

1983 1498 引用

FLEURS: FEW-Shot Learning Evaluation of Universal Representations of Speech

Alexis Conneau, Min Ma, Simran Khanuja 等

2022 604 引用查看解读 →

Hallucinations in Neural Automatic Speech Recognition: Identifying Errors and Hallucinatory Models

Rita Frieske, Bertram E. Shi

2024 35 引用查看解读 →

Linguistic constraints in hidden Markov model based speech recognition

M. Weintraub, H. Murveit, Michael Cohen 等

1989 78 引用

Sparse Autoencoders Find Highly Interpretable Features in Language Models

Hoagy Cunningham, Aidan Ewart, L. Smith 等

2023 1227 引用查看解读 →

Steering Llama 2 via Contrastive Activation Addition

Nina Rimsky, Nick Gabrieli, Julia Schulz 等

2023 770 引用查看解读 →

Qwen3-Omni Technical Report

Jin Xu, Zhifang Guo, Hangrui Hu 等

2025 296 引用查看解读 →

Emilia: An Extensive, Multilingual, and Diverse Speech Dataset For Large-Scale Speech Generation

Haorui He, Zengqiang Shang, Chaoren Wang 等

2024 247 引用查看解读 →

GigaAM: Efficient Self-Supervised Learner for Speech Recognition

Aleksandr Kutsakov, A. Maximenko, Georgi Gospodinov 等

2025 3 引用查看解读 →

Steering Language Models With Activation Engineering

A. M. Turner, Lisa Thiergart, Gavin Leech 等

2023 572 引用查看解读 →

FSD50K: An Open Dataset of Human-Labeled Sound Events

Eduardo Fonseca, Xavier Favory, Jordi Pons 等

2020 695 引用查看解读 →