Semantic Token Clustering for Efficient Uncertainty Quantification in Large Language Models

TL;DR

语义标记聚类（STC）方法实现大语言模型中高效的不确定性量化，显著降低计算开销。

cs.CL 🔴 高级 2026-03-21 53 次浏览

Qi Cao Andrew Gambardella Takeshi Kojima Yutaka Matsuo Yusuke Iwasawa

大语言模型不确定性量化语义标记聚类计算效率自然语言处理

核心发现

方法论

本文提出了一种名为语义标记聚类（STC）的新方法，用于在大语言模型（LLMs）中进行高效的不确定性量化。该方法通过利用LLMs内部编码的语义信息，将标记分组为语义一致的聚类，并基于相应语义聚类的概率质量来量化不确定性。具体而言，STC使用嵌入聚类和前缀匹配来实现标记的语义聚类，并在每个解码步骤中聚合语义聚类内的标记概率，以获得不确定性分数。该方法无需依赖外部模型或多次生成，仅需一次生成即可完成不确定性量化。

关键结果

实验结果表明，STC在多个数据集和模型上实现了与最先进基线相当的性能，同时显著降低了计算开销。具体而言，与CCP方法相比，STC在保持竞争性能的同时，推理时间开销平均减少了98%。
在不同的数据集（如TriviaQA、Natural Questions和WebQuestions）上，STC方法在AUROC指标上表现优异，显示出其在不确定性量化中的有效性。
消融研究表明，去除嵌入聚类或前缀匹配组件会导致性能下降，证明了这两个组件在不确定性量化中的互补性和重要性。

研究意义

本研究通过提出语义标记聚类（STC）方法，为大语言模型的不确定性量化提供了一种高效且自包含的解决方案。该方法无需依赖外部模型或多次生成，显著降低了计算开销，特别适用于资源受限和低延迟场景。STC方法的提出解决了现有方法中计算开销大的问题，同时充分利用了LLMs内部编码的语义信息，为不确定性量化提供了一种新的思路。这一研究在学术界和工业界都具有重要意义，尤其是在需要高可靠性和低计算成本的应用场景中。

技术贡献

技术上，STC方法通过直接利用LLMs内部的语义表示，实现了高效的不确定性量化，避免了外部模型和多次生成的需求。该方法在不确定性量化中引入了语义标记聚类的概念，通过嵌入聚类和前缀匹配实现标记的语义聚类，并在每个解码步骤中聚合语义聚类内的标记概率，以获得不确定性分数。与现有方法相比，STC方法在保持竞争性能的同时，显著降低了计算开销，展示了其在工程实现中的潜力。

新颖性

STC方法的创新之处在于其通过直接利用LLMs内部的语义信息，实现了高效的不确定性量化。这一方法首次将语义标记聚类应用于不确定性量化，通过嵌入聚类和前缀匹配实现标记的语义聚类，避免了外部模型和多次生成的需求。与现有方法相比，STC方法在计算效率和性能上均具有显著优势。

局限性

STC方法需要访问标记logits和标记嵌入，这在闭源模型中通常不可用，因此无法直接应用于这些模型。
该方法依赖于静态标记嵌入和从LLM词汇中派生的语义关系，可能会引入噪声，特别是在多义词的情况下。
与CCP方法类似，STC方法未明确解决不确定性分数的校准问题。

未来方向

未来的研究方向包括探索将上下文感知的语义表示（如上下文化嵌入）整合到STC方法中，以减少噪声并提高不确定性量化的性能和鲁棒性。此外，研究如何在闭源模型中应用STC方法，以及如何更好地校准不确定性分数，也是值得关注的方向。

AI 总览摘要

大语言模型（LLMs）在各种任务中表现出色，但其输出的真实性并不总是有保证，且往往表现出过度自信的问题。这种不确定性限制了LLMs在高风险领域（如医疗、法律和科学）中的应用。现有的不确定性量化方法通常依赖于重复采样或辅助模型，导致计算开销巨大。为了解决这些问题，本文提出了一种名为语义标记聚类（STC）的新方法，用于高效的不确定性量化。该方法通过利用LLMs内部编码的语义信息，将标记分组为语义一致的聚类，并基于相应语义聚类的概率质量来量化不确定性。

STC方法的核心在于其无需依赖外部模型或多次生成，仅需一次生成即可完成不确定性量化。具体而言，该方法使用嵌入聚类和前缀匹配来实现标记的语义聚类，并在每个解码步骤中聚合语义聚类内的标记概率，以获得不确定性分数。这一方法在保持竞争性能的同时，显著降低了计算开销，特别适用于资源受限和低延迟场景。

实验结果表明，STC在多个数据集和模型上实现了与最先进基线相当的性能，同时显著降低了计算开销。具体而言，与CCP方法相比，STC在保持竞争性能的同时，推理时间开销平均减少了98%。消融研究表明，去除嵌入聚类或前缀匹配组件会导致性能下降，证明了这两个组件在不确定性量化中的互补性和重要性。

STC方法的提出为大语言模型的不确定性量化提供了一种高效且自包含的解决方案，解决了现有方法中计算开销大的问题，同时充分利用了LLMs内部编码的语义信息。这一研究在学术界和工业界都具有重要意义，尤其是在需要高可靠性和低计算成本的应用场景中。

然而，STC方法也存在一些局限性。首先，该方法需要访问标记logits和标记嵌入，这在闭源模型中通常不可用，因此无法直接应用于这些模型。其次，STC方法依赖于静态标记嵌入和从LLM词汇中派生的语义关系，可能会引入噪声，特别是在多义词的情况下。未来的研究方向包括探索将上下文感知的语义表示整合到STC方法中，以减少噪声并提高不确定性量化的性能和鲁棒性。

深度分析

研究背景

近年来，大语言模型（LLMs）在自然语言处理领域取得了显著进展，展现出在各种任务中的卓越能力。然而，尽管LLMs在生成自然语言文本方面表现出色，其输出的真实性并不总是有保证，尤其是在高风险领域（如医疗、法律和科学）中，这一问题尤为突出。现有的不确定性量化方法通常依赖于重复采样或辅助模型，这不仅增加了计算开销，还未能充分利用LLMs内部编码的语义信息。因此，如何在保持性能的同时降低计算开销，成为不确定性量化研究中的一个重要课题。

核心问题

大语言模型在生成自然语言文本时，常常表现出过度自信的问题，即使在生成的文本不准确时也是如此。这种过度自信限制了LLMs在高风险领域中的应用，因为在这些领域中，输出的真实性至关重要。现有的不确定性量化方法通常依赖于重复采样或辅助模型，导致计算开销巨大，难以在资源受限和低延迟场景中应用。因此，如何在不依赖外部模型或多次生成的情况下，实现高效的不确定性量化，成为一个亟待解决的问题。

核心创新

本文提出了一种名为语义标记聚类（STC）的新方法，用于高效的不确定性量化。• STC通过直接利用LLMs内部编码的语义信息，将标记分组为语义一致的聚类，避免了外部模型和多次生成的需求。• 该方法使用嵌入聚类和前缀匹配来实现标记的语义聚类，并在每个解码步骤中聚合语义聚类内的标记概率，以获得不确定性分数。• STC方法在保持竞争性能的同时，显著降低了计算开销，特别适用于资源受限和低延迟场景。

方法详解

STC方法的实现包括以下几个步骤：

�� 嵌入聚类：在预计算阶段，使用无监督聚类算法（如凝聚聚类）将标记嵌入分组为语义一致的聚类。聚类过程在离线进行，避免了推理时的计算开销。

�� 前缀匹配：在推理阶段，通过检查候选标记是否作为后续生成的前缀，增强语义聚类的语义一致性。

�� 概率聚合：在每个解码步骤中，聚合语义聚类内的标记概率，以获得不确定性分数。通过这种方式，STC方法能够在不依赖外部模型或多次生成的情况下，实现高效的不确定性量化。

实验设计

实验设计包括使用多个数据集（如TriviaQA、Natural Questions和WebQuestions）和多种模型（如Llama-2-7B、Llama-3-8B、Mistral-7B和Qwen2.5模型）进行测试。实验中使用的基线方法包括单次生成方法（如Perplexity、tokenSAR和CCP）和采样方法（如Predictive Entropy、LN-Entropy和EigenScore）。关键超参数包括聚类数量和温度采样参数。消融研究用于评估嵌入聚类和前缀匹配组件的贡献。

结果分析

实验结果表明，STC方法在多个数据集和模型上实现了与最先进基线相当的性能，特别是在AUROC指标上表现优异。与CCP方法相比，STC在保持竞争性能的同时，推理时间开销平均减少了98%。消融研究表明，去除嵌入聚类或前缀匹配组件会导致性能下降，证明了这两个组件在不确定性量化中的互补性和重要性。

应用场景

STC方法适用于需要高效不确定性量化的场景，如实时自然语言处理应用、资源受限的移动设备应用和需要高可靠性的大规模文本生成系统。该方法无需依赖外部模型或多次生成，显著降低了计算开销，特别适用于低延迟和资源受限的场景。

局限与展望

STC方法的局限性包括：• 需要访问标记logits和标记嵌入，这在闭源模型中通常不可用，因此无法直接应用于这些模型。• 依赖于静态标记嵌入和从LLM词汇中派生的语义关系，可能会引入噪声，特别是在多义词的情况下。未来的研究方向包括探索将上下文感知的语义表示整合到STC方法中，以减少噪声并提高不确定性量化的性能和鲁棒性。

通俗解读非专业人士也能看懂

想象一下你在厨房里做饭。你有一堆食材，但你不确定哪些是新鲜的，哪些可能已经变质。为了确保做出美味的菜肴，你需要一种方法来判断每种食材的新鲜度。现在，想象这些食材是大语言模型生成的单词或短语，而新鲜度就是不确定性。语义标记聚类（STC）就像是一个聪明的厨师，他能够快速地将食材分组，比如把所有的蔬菜放在一起，把所有的肉类放在一起，然后根据每组食材的整体新鲜度来判断它们是否可以使用。这样，厨师只需要一次检查就能知道哪些食材是可靠的，而不需要反复检查每一个食材。STC方法通过利用大语言模型内部的语义信息，将单词或短语分组为语义一致的聚类，然后基于每个聚类的概率来量化不确定性。这就像厨师根据每组食材的整体新鲜度来判断它们是否可以使用一样。通过这种方式，STC方法能够快速高效地判断哪些生成的单词或短语是可靠的，而不需要依赖外部模型或多次生成。这种方法特别适用于需要快速决策和低计算成本的场景，比如实时自然语言处理应用或资源受限的移动设备应用。

简单解释像给14岁少年讲一样

嘿，小伙伴！你有没有想过，像Siri或者Google Assistant这样的智能助手是怎么知道它们说的话是不是对的？其实，它们有时候也会犯错，就像我们在考试中可能会答错题一样。为了让这些助手更聪明，我们需要一种方法来判断它们说的话是不是靠谱。这就是我们今天要聊的“语义标记聚类”（STC）方法。想象一下，你在玩一个猜词游戏，你需要根据提示猜出一个词。现在，假设每个提示都是一个词的不同版本，比如“电视”和“TV”。STC就像一个超级聪明的玩家，它能够把这些提示分成不同的组，然后根据每组提示的整体情况来判断哪个词是正确的。这样，它只需要一次判断就能知道哪个词是最有可能的，而不需要反复猜测。STC方法通过利用智能助手内部的语义信息，把词分成语义一致的组，然后根据每组的概率来判断哪个词是最靠谱的。这就像你在猜词游戏中，根据每组提示的整体情况来判断哪个词是正确的一样。通过这种方法，STC能够快速高效地判断智能助手说的话是不是靠谱，而不需要依赖外部的帮助。这种方法特别适合需要快速反应和低计算成本的场景，比如实时的语音助手应用或者资源有限的移动设备应用。怎么样，是不是很酷？

术语表

大语言模型 (LLM)

大语言模型是一种能够生成和理解自然语言文本的人工智能模型，通常具有数十亿参数，能够在多种任务中表现出色。

本文中用于生成自然语言文本并进行不确定性量化的基础模型。

不确定性量化

不确定性量化是一种评估模型输出的可靠性的方法，通过计算输出的概率分布来判断其可信度。

用于识别大语言模型输出中可能不可靠的部分。

语义标记聚类 (STC)

语义标记聚类是一种利用模型内部语义信息将标记分组为语义一致聚类的方法，用于高效的不确定性量化。

本文提出的核心方法，用于在大语言模型中实现高效的不确定性量化。

嵌入聚类

嵌入聚类是一种将标记的嵌入向量分组为语义一致聚类的技术，通常使用无监督聚类算法实现。

用于实现语义标记聚类的关键步骤。

前缀匹配

前缀匹配是一种通过检查候选标记是否作为后续生成的前缀来增强语义聚类语义一致性的方法。

用于在推理阶段增强语义聚类的语义一致性。

概率聚合

概率聚合是一种通过聚合语义聚类内的标记概率来计算不确定性分数的方法。

用于在每个解码步骤中获得不确定性分数。

凝聚聚类

凝聚聚类是一种层次聚类算法，通过逐步合并最相似的聚类来构建聚类层次结构。

用于实现嵌入聚类的无监督聚类算法。

AUROC

AUROC是评估分类模型性能的指标，表示接收者操作特征曲线下面积，数值越高表示模型性能越好。

用于评估STC方法在不确定性量化中的性能。

消融研究

消融研究是一种通过去除模型的某些组件来评估其对整体性能贡献的方法。

用于评估嵌入聚类和前缀匹配组件在STC方法中的贡献。

温度采样

温度采样是一种通过调整采样概率分布的温度参数来生成多样化输出的技术。

用于生成辅助响应以评估采样方法的基线性能。

开放问题这项研究留下的未解疑问

1 如何在闭源模型中应用STC方法？由于STC方法需要访问标记logits和标记嵌入，这在闭源模型中通常不可用，因此无法直接应用于这些模型。未来的研究需要探索如何在不访问这些内部表示的情况下实现高效的不确定性量化。
2 如何减少STC方法中的噪声？STC方法依赖于静态标记嵌入和从LLM词汇中派生的语义关系，可能会引入噪声，特别是在多义词的情况下。未来的研究可以探索将上下文感知的语义表示整合到STC方法中，以减少噪声并提高性能。
3 如何校准STC方法的不确定性分数？与CCP方法类似，STC方法未明确解决不确定性分数的校准问题。未来的研究可以探索如何更好地校准不确定性分数，以提高其在实际应用中的可靠性。
4 如何在多语言环境中应用STC方法？当前的STC方法主要针对单一语言进行优化，未来的研究可以探索如何在多语言环境中应用该方法，以提高其在不同语言中的适用性和性能。
5 如何在低资源环境中优化STC方法？尽管STC方法在计算效率上具有优势，但在极低资源环境中仍可能面临挑战。未来的研究可以探索如何进一步优化该方法，以适应更低资源的应用场景。

应用场景

近期应用

实时自然语言处理应用

STC方法可以用于实时自然语言处理应用，如语音助手和聊天机器人，提供更可靠的响应。

资源受限的移动设备应用

在移动设备上，计算资源有限，STC方法可以提供高效的不确定性量化，降低计算开销。

大规模文本生成系统

在需要生成大量文本的系统中，STC方法可以提高生成文本的可靠性，减少错误输出。

远期愿景

多语言自然语言处理系统

STC方法可以扩展到多语言环境中，提高不同语言下自然语言处理系统的可靠性。

智能决策支持系统

通过提高系统对不确定性响应的可靠性，STC方法可以用于智能决策支持系统，帮助用户做出更明智的决策。

原文摘要

Large language models (LLMs) have demonstrated remarkable capabilities across diverse tasks. However, the truthfulness of their outputs is not guaranteed, and their tendency toward overconfidence further limits reliability. Uncertainty quantification offers a promising way to identify potentially unreliable outputs, but most existing methods rely on repeated sampling or auxiliary models, introducing substantial computational overhead. To address these limitations, we propose Semantic Token Clustering (STC), an efficient uncertainty quantification method that leverages the semantic information inherently encoded in LLMs. Specifically, we group tokens into semantically consistent clusters using embedding clustering and prefix matching, and quantify uncertainty based on the probability mass aggregated over the corresponding semantic cluster. Our approach requires only a single generation and does not depend on auxiliary models. Experimental results show that STC achieves performance comparable to state-of-the-art baselines while substantially reducing computational overhead.

cs.CL cs.AI cs.LG

参考文献 (18)

Fact-Checking the Output of Large Language Models via Token-Level Uncertainty Quantification

Ekaterina Fadeeva, Aleksandr Rubashevskii, Artem Shelmanov 等

2024 129 引用 ⭐ 高影响力查看解读 →

Scikit-learn: Machine Learning in Python

Fabian Pedregosa, G. Varoquaux, Alexandre Gramfort 等

2011 87142 引用查看解读 →

On a Measure of the Information Provided by an Experiment

D. Lindley

1956 1710 引用

Detecting hallucinations in large language models using semantic entropy

Sebastian Farquhar, Jannik Kossen, Lorenz Kuhn 等

2024 1004 引用

The Internal State of an LLM Knows When its Lying

A. Azaria, Tom M. Mitchell

2023 556 引用查看解读 →

TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension

Mandar Joshi, Eunsol Choi, Daniel S. Weld 等

2017 3559 引用查看解读 →

Steven Bird, Ewan Klein and Edward Loper: Natural Language Processing with Python, Analyzing Text with the Natural Language Toolkit

Wiebke Wagner

2010 3394 引用

Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph

Roman Vashurin, Ekaterina Fadeeva, Artem Vazhentsev 等

2024 80 引用查看解读 →

ConU: Conformal Uncertainty in Large Language Models with Correctness Coverage Guarantees

Zhiyuan Wang, Jinhao Duan, Lu Cheng 等

2024 49 引用查看解读 →

Semantic Parsing on Freebase from Question-Answer Pairs

Jonathan Berant, A. Chou, Roy Frostig 等

2013 2167 引用

Uncertainty Estimation in Autoregressive Structured Prediction

A. Malinin, M. Gales

2021 403 引用

Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks

Nils Reimers, Iryna Gurevych

2019 16756 引用查看解读 →

Unsupervised Quality Estimation for Neural Machine Translation

M. Fomicheva, Shuo Sun, L. Yankovskaya 等

2020 267 引用查看解读 →

FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning

Tri Dao

2023 2381 引用查看解读 →

ROUGE: A Package for Automatic Evaluation of Summaries

Chin-Yew Lin

2004 19626 引用

Natural Questions: A Benchmark for Question Answering Research

T. Kwiatkowski, J. Palomaki, Olivia Redfield 等

2019 4382 引用

Llama 2: Open Foundation and Fine-Tuned Chat Models

Hugo Touvron, Louis Martin, Kevin R. Stone 等

2023 16182 引用查看解读 →

Uncertainty Estimation and Quantification for LLMs: A Simple Supervised Approach

Linyu Liu, Yu Pan, Xiaocheng Li 等

2024 78 引用查看解读 →

Semantic Token Clustering for Efficient Uncertainty Quantification in Large Language Models

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

大语言模型 (LLM)

不确定性量化

语义标记聚类 (STC)

嵌入聚类

前缀匹配

概率聚合

凝聚聚类

AUROC

消融研究

温度采样

开放问题 这项研究留下的未解疑问

应用场景

近期应用

实时自然语言处理应用

资源受限的移动设备应用

大规模文本生成系统

远期愿景

多语言自然语言处理系统

智能决策支持系统

原文摘要

参考文献 (18)

相关论文

Sentiment and Emotion Classification of Indonesian E-Commerce Reviews via Multi-Task BiLSTM and AutoML Benchmarking

SeaEvo: Advancing Algorithm Discovery with Strategy Space Evolution

Improving Robustness of Tabular Retrieval via Representational Stability

Representational Harms in LLM-Generated Narratives Against Global Majority Nationalities

CRAFT: Clustered Regression for Adaptive Filtering of Training data

BERAG: Bayesian Ensemble Retrieval-Augmented Generation for Knowledge-based Visual Question Answering

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问