Why Fine-Tuning Encourages Hallucinations and How to Fix It

TL;DR

自蒸馏方法减少微调导致的幻觉，将事实遗忘率从15%降至3%。

cs.CL 🔴 高级 2026-04-17 30 次浏览

Guy Kaplan Zorik Gekhman Zhen Zhu Lotem Rozner Yuval Reif Swabha Swayamdipta Derek Hoiem Roy Schwartz

微调幻觉自蒸馏持续学习语言模型

核心发现

方法论

本文提出了一种基于自蒸馏的监督微调（SFT）方法，通过正则化输出分布漂移来减少幻觉。该方法利用持续学习中的工具来减少知识退化。具体来说，自蒸馏通过限制参数更新来保持模型的输出分布接近其早期状态，从而减少新知识对已有知识的干扰。此外，本文还探讨了冻结参数组以抑制事实可塑性的方法，适用于不需要新知识获取的场景。

关键结果

结果1：在自蒸馏方法下，事实遗忘率从标准SFT的15%降低到3%，同时保持了新知识的有效获取。
结果2：通过冻结参数组，模型在不需要新知识获取的情况下减少了幻觉，同时保持了任务性能。
结果3：实验表明，SFT引起的幻觉主要是由于重叠语义表示之间的干扰，而自蒸馏通过减少这种干扰成功地降低了幻觉。

研究意义

这项研究通过重新定义SFT引起的幻觉为事实遗忘，提供了一个新的视角来理解和解决这一问题。通过引入自蒸馏方法，研究在不牺牲任务性能的情况下有效地减少了幻觉。这一发现对学术界和工业界都有重要意义，因为它不仅提高了大语言模型的可靠性，还为持续学习领域提供了新的见解和方法。

技术贡献

本文的技术贡献在于将自蒸馏方法应用于SFT，以减少幻觉。这种方法与现有的最先进方法有根本区别，因为它通过限制输出分布漂移来保持事实稳定性。此外，本文还探讨了冻结参数组以减少事实可塑性的方法，为工程实践提供了新的可能性。

新颖性

本文首次将自蒸馏方法应用于减少SFT引起的幻觉，并通过实验证明了其有效性。与以往工作不同，本文不仅关注于新知识的获取，还强调了保持已有知识的重要性。

局限性

局限1：自蒸馏方法需要额外的计算资源来保持教师模型的输出分布，这可能增加训练成本。
局限2：冻结参数组的方法在需要新知识获取的场景中可能不适用。

未来方向

未来的研究可以探索如何在更大规模的数据集和更复杂的任务上应用自蒸馏方法。此外，还可以研究如何结合其他持续学习方法来进一步减少幻觉。

AI 总览摘要

近年来，大型语言模型在自然语言处理任务中表现出色，但它们也容易产生事实性错误，即所谓的“幻觉”。这些幻觉在模型通过监督微调（SFT）学习新知识时尤为明显。SFT是大语言模型开发中的标准实践，但它可能会加剧幻觉问题，从而影响应用的可靠性。

本文提出了一种基于自蒸馏的SFT方法，旨在减少幻觉。自蒸馏是一种持续学习技术，通过在微调过程中正则化模型的输出分布来减少遗忘。实验结果表明，这种方法在保持新知识获取的同时，将事实遗忘率从标准SFT的15%降低到3%。

此外，研究还探讨了在不需要新知识获取的场景中，通过冻结参数组来抑制事实可塑性的方法。实验表明，这种方法可以在保持任务性能的同时减少幻觉。

为了深入理解SFT引起的幻觉机制，研究提出了三种假设：容量限制、行为克隆和局部干扰。实验结果显示，重叠语义表示之间的干扰是主要驱动因素，而自蒸馏通过减少这种干扰成功地降低了幻觉。

这项研究不仅为减少幻觉提供了有效的方法，还为持续学习领域提供了新的视角。未来的研究可以进一步探索如何在更复杂的任务和更大规模的数据集上应用这些方法。

深度分析

研究背景

近年来，随着大语言模型（LLM）的发展，模型在自然语言处理任务中的表现显著提高。然而，这些模型也面临着幻觉问题，即生成的内容可能包含事实性错误。幻觉问题不仅影响模型的可靠性，还限制了其在实际应用中的广泛使用。现有研究表明，幻觉问题在模型通过监督微调（SFT）学习新知识时尤为明显。SFT是大语言模型开发中的标准实践，但它可能会加剧幻觉问题，从而影响应用的可靠性。因此，如何在保持模型性能的同时减少幻觉成为一个重要的研究课题。

核心问题

本文关注的核心问题是如何减少SFT引起的幻觉。具体来说，当模型通过SFT学习新知识时，可能会对先前已掌握的知识产生干扰，导致事实遗忘。这种遗忘表现为模型在回答之前能够正确回答的问题时产生错误答案。幻觉问题不仅影响模型的可靠性，还限制了其在实际应用中的广泛使用。因此，如何在保持模型性能的同时减少幻觉成为一个重要的研究课题。

核心创新

本文的核心创新在于提出了一种基于自蒸馏的SFT方法，以减少幻觉。自蒸馏是一种持续学习技术，通过在微调过程中正则化模型的输出分布来减少遗忘。这种方法的创新之处在于它不仅关注于新知识的获取，还强调了保持已有知识的重要性。此外，本文还探讨了冻结参数组以减少事实可塑性的方法，为工程实践提供了新的可能性。

方法详解

本文的方法包括以下几个关键步骤：

�� 自蒸馏：在微调过程中，模型通过正则化输出分布漂移来减少遗忘。具体来说，自蒸馏通过限制参数更新来保持模型的输出分布接近其早期状态。

�� 冻结参数组：在不需要新知识获取的场景中，通过冻结参数组来抑制事实可塑性。这种方法可以在保持任务性能的同时减少幻觉。

�� 实验设计：通过对比标准SFT和自蒸馏方法的实验，验证了自蒸馏方法在减少幻觉方面的有效性。

实验设计

实验设计包括以下几个方面：

�� 数据集：使用SLiCK方法对问题进行分类，选择已知和未知事实进行训练和评估。

�� 基线：与标准SFT进行对比，验证自蒸馏方法的有效性。

�� 指标：通过事实遗忘率和任务性能来评估模型的表现。

�� 超参数：选择合适的学习率和训练轮数，以确保模型的有效性。

结果分析

实验结果表明，自蒸馏方法在保持新知识获取的同时，将事实遗忘率从标准SFT的15%降低到3%。此外，通过冻结参数组，模型在不需要新知识获取的情况下减少了幻觉，同时保持了任务性能。实验还显示，SFT引起的幻觉主要是由于重叠语义表示之间的干扰，而自蒸馏通过减少这种干扰成功地降低了幻觉。

应用场景

本文的方法可以应用于需要减少幻觉的大语言模型中，特别是在需要保持已有知识的场景中。例如，在私人领域的SFT或对齐微调中，通过冻结参数组可以减少幻觉。在需要新知识获取的领域适应中，自蒸馏方法可以在保持新知识获取的同时减少幻觉。

局限与展望

尽管自蒸馏方法在减少幻觉方面表现出色，但它需要额外的计算资源来保持教师模型的输出分布，这可能增加训练成本。此外，冻结参数组的方法在需要新知识获取的场景中可能不适用。未来的研究可以探索如何在更大规模的数据集和更复杂的任务上应用自蒸馏方法。

通俗解读非专业人士也能看懂

想象一下你在厨房里做饭。你已经知道如何做出美味的意大利面，但现在你想尝试一种新的酱料。为了不忘记如何做意大利面，你在学习新酱料的同时，确保不改变你对意大利面的记忆。这就像是自蒸馏方法，它在学习新知识时保持旧知识的稳定。

在厨房里，你可能会冻结一些不需要改变的食材，比如意大利面的基础配料，而只专注于新酱料的制作。这类似于冻结参数组的方法，只在需要的地方进行调整。

通过这种方式，你不仅能学会新的酱料，还能确保每次做意大利面时都不会出错。这就是自蒸馏和冻结参数组在减少幻觉方面的工作原理。它们帮助模型在学习新知识时，保持对旧知识的准确性。

简单解释像给14岁少年讲一样

嘿，小伙伴们！你们有没有玩过那种需要不断升级的游戏？想象一下，你的角色已经学会了很多技能，但每次学习新技能时，旧技能就会变得不那么厉害了。这就是我们说的幻觉问题！

科学家们发现，当大语言模型学习新知识时，它们可能会忘记以前学过的东西。为了避免这种情况，他们发明了一种叫做自蒸馏的方法。就像在游戏中，你可以保存角色的状态，确保学习新技能时不会影响旧技能。

还有一种方法是冻结一些不需要改变的技能，只专注于学习新的。这就像在游戏中，你只升级需要的技能，而不动其他的。

通过这些方法，模型可以在学习新知识的同时，保持对旧知识的掌握。这样一来，我们就能拥有更聪明、更可靠的AI啦！

术语表

自蒸馏 (Self-distillation)

自蒸馏是一种持续学习技术，通过在微调过程中正则化模型的输出分布来减少遗忘。

在本文中，自蒸馏用于减少SFT引起的幻觉。

监督微调 (Supervised Fine-Tuning, SFT)

SFT是一种通过监督学习来微调模型的方法，通常用于大语言模型的开发。

本文探讨了SFT引起的幻觉问题。

幻觉 (Hallucination)

幻觉是指模型生成的内容包含事实性错误，影响其可靠性。

本文研究了SFT引起的幻觉及其解决方法。

持续学习 (Continual Learning)

持续学习是一种机器学习方法，旨在使模型能够在不遗忘旧知识的情况下学习新知识。

本文利用持续学习中的工具来减少SFT引起的幻觉。

冻结参数组 (Freezing Parameter Groups)

冻结参数组是一种减少模型参数更新的方法，旨在保持已有知识的稳定性。

在不需要新知识获取的场景中，本文探讨了冻结参数组的方法。

输出分布漂移 (Output Distribution Drift)

输出分布漂移是指模型在学习新知识时，其输出分布发生变化，可能导致旧知识的遗忘。

自蒸馏通过正则化输出分布漂移来减少幻觉。

事实遗忘 (Factual Forgetting)

事实遗忘是指模型在学习新知识时，对先前已掌握的知识产生干扰，导致错误。

本文将SFT引起的幻觉重新定义为事实遗忘。

SLiCK方法 (SLiCK Method)

SLiCK方法是一种用于分类问题的技术，帮助识别模型对问题的预先知识水平。

本文使用SLiCK方法对问题进行分类，以评估模型的表现。

重叠语义表示 (Overlapping Semantic Representations)

重叠语义表示是指不同实体在模型内部共享相似的表示，可能导致干扰。

本文发现SFT引起的幻觉主要是由于重叠语义表示之间的干扰。

知识退化 (Knowledge Degradation)

知识退化是指模型在学习新知识时，先前知识的表示被破坏或遗忘。

本文探讨了如何利用持续学习工具减少知识退化。

开放问题这项研究留下的未解疑问

1 如何在更大规模的数据集上应用自蒸馏方法以减少幻觉？现有方法可能在计算资源上存在限制，需要进一步优化。
2 在更复杂的任务中，自蒸馏方法的有效性如何？需要探索其在不同任务上的适用性。
3 冻结参数组的方法在需要新知识获取的场景中可能不适用，如何在这些场景中减少幻觉？
4 自蒸馏方法是否可以与其他持续学习技术结合，以进一步提高模型的性能？
5 如何在不增加计算成本的情况下，保持自蒸馏方法的有效性？需要探索更高效的实现方式。

应用场景

近期应用

私人领域的SFT

在私人领域的SFT中，通过冻结参数组可以减少幻觉，保持已有知识的稳定性。

对齐微调

在对齐微调中，冻结参数组的方法可以在不需要新知识获取的情况下减少幻觉。

领域适应

在需要新知识获取的领域适应中，自蒸馏方法可以在保持新知识获取的同时减少幻觉。

远期愿景

大规模知识库构建

通过减少幻觉，提高大规模知识库的构建效率和准确性。

智能助手开发

在智能助手的开发中，减少幻觉可以提高用户体验和系统可靠性。

原文摘要

Large language models are prone to hallucinating factually incorrect statements. A key source of these errors is exposure to new factual information through supervised fine-tuning (SFT), which can increase hallucinations w.r.t. knowledge acquired during pre-training. In this work, we explore whether SFT-induced hallucinations can be mitigated using established tools from the continual learning literature, since they arise as a by-product of knowledge degradation during training. We propose a self-distillation-based SFT method that facilitates effective factual learning while minimizing hallucinations w.r.t. pre-existing knowledge by regularizing output-distribution drift. We also show that, in settings where new knowledge acquisition is unnecessary, suppressing factual plasticity by freezing parameter groups, can preserve task performance while reducing hallucinations. Lastly, we investigate the mechanism behind SFT-induced hallucinations through three hypotheses: capacity limitations, behavior cloning, and localized interference. Our experiments show that a main driver is interference among overlapping semantic representations, and that self-distillation succeeds by mitigating this interference.

cs.CL cs.AI cs.LG cs.NE

参考文献 (20)

Continual Learning for Generative AI: From LLMs to MLLMs and Beyond

Haiyang Guo, Fanhu Zeng, Fei Zhu 等

2025 6 引用 ⭐ 高影响力查看解读 →

Transformer Feed-Forward Layers Build Predictions by Promoting Concepts in the Vocabulary Space

Mor Geva, Avi Caciularu, Ke Wang 等

2022 509 引用 ⭐ 高影响力查看解读 →

Self-Distillation Enables Continual Learning

Idan Shenfeld, Mehul Damani, Jonas Hübotter 等

2026 30 引用 ⭐ 高影响力查看解读 →

Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?

Zorik Gekhman, G. Yona, Roee Aharoni 等

2024 256 引用 ⭐ 高影响力查看解读 →

Continual Memorization of Factoids in Language Models

Howard Chen, Jiayi Geng, Adithya Bhaskar 等

2024 5 引用查看解读 →

Learning without Forgetting

Zhizhong Li, Derek Hoiem

2016 5417 引用查看解读 →

A Continual Learning Survey: Defying Forgetting in Classification Tasks

Matthias De Lange, Rahaf Aljundi, Marc Masana 等

2019 2269 引用

Follow the Flow: On Information Flow Across Textual Tokens in Text-to-Image Models

Guy Kaplan, Michael Toker, Yuval Reif 等

2025 3 引用查看解读 →

A Comprehensive Survey of Continual Learning: Theory, Method and Application

Liyuan Wang, Xingxing Zhang, Hang Su 等

2023 1280 引用查看解读 →

Putting a Face to Forgetting: Continual Learning meets Mechanistic Interpretability

Sergi Masip, Gido M. van de Ven, Javier Ferrando 等

2026 1 引用查看解读 →

From Single to Multi: How LLMs Hallucinate in Multi-Document Summarization

Catarina G. Belem, Pouya Pezeshkpour, Hayate Iso 等

2024 18 引用查看解读 →

Locating and Editing Factual Associations in GPT

Kevin Meng, David Bau, A. Andonian 等

2022 2323 引用查看解读 →

Inferring Functionality of Attention Heads from their Parameters

Amit Elhelo, Mor Geva

2024 12 引用查看解读 →

Online Continual Learning in Image Classification: An Empirical Survey

Zheda Mai, Ruiwen Li, Jihwan Jeong 等

2021 501 引用查看解读 →

RL's Razor: Why Online Reinforcement Learning Forgets Less

Idan Shenfeld, Jyothish Pari, Pulkit Agrawal

2025 85 引用查看解读 →

Fine-Tuning or Retrieval? Comparing Knowledge Injection in LLMs

O. Ovadia, Meni Brief, Moshik Mishaeli 等

2023 257 引用查看解读 →

How do language models learn facts? Dynamics, curricula and hallucinations

Nicolas Zucchet, Jörg Bornschein, Stephanie Chan 等

2025 26 引用查看解读 →

Analyzing Transformers in Embedding Space

Guy Dar, Mor Geva, Ankit Gupta 等

2022 136 引用查看解读 →

Towards Continual Knowledge Learning of Language Models

Joel Jang, Seonghyeon Ye, Sohee Yang 等

2021 202 引用查看解读 →

Empty Shelves or Lost Keys? Recall Is the Bottleneck for Parametric Factuality

Nitay Calderon, Eyal Ben-David, Zorik Gekhman 等

2026 2 引用查看解读 →

Why Fine-Tuning Encourages Hallucinations and How to Fix It

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

自蒸馏 (Self-distillation)

监督微调 (Supervised Fine-Tuning, SFT)

幻觉 (Hallucination)

持续学习 (Continual Learning)

冻结参数组 (Freezing Parameter Groups)

输出分布漂移 (Output Distribution Drift)

事实遗忘 (Factual Forgetting)

SLiCK方法 (SLiCK Method)

重叠语义表示 (Overlapping Semantic Representations)

知识退化 (Knowledge Degradation)

开放问题 这项研究留下的未解疑问

应用场景

近期应用

私人领域的SFT

对齐微调

领域适应

远期愿景

大规模知识库构建

智能助手开发

原文摘要

参考文献 (20)

相关论文

Sentiment and Emotion Classification of Indonesian E-Commerce Reviews via Multi-Task BiLSTM and AutoML Benchmarking

SeaEvo: Advancing Algorithm Discovery with Strategy Space Evolution

Improving Robustness of Tabular Retrieval via Representational Stability

Representational Harms in LLM-Generated Narratives Against Global Majority Nationalities

CRAFT: Clustered Regression for Adaptive Filtering of Training data

BERAG: Bayesian Ensemble Retrieval-Augmented Generation for Knowledge-based Visual Question Answering

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问