FASE: Fast Adaptive Semantic Entropy for Code Quality

TL;DR

提出FASE，通过图结构和语义嵌入近似代码正确性，提升相关性25%，计算开销仅0.3%。

cs.SE 🔴 高级 2026-06-09 72 次浏览

Shizhe Lin Ladan Tahvildari

人工智能代码生成不确定性估计语义熵多智能体系统

核心发现

方法论

本文提出的FASE方法利用代码嵌入模型，将生成代码映射到连续语义空间，通过构建结构和语义差异图，提取最小生成树（MST）实现高效的结构抽象。采用基于密度的自适应聚类算法，动态确定语义等价类，从而无需昂贵的LLM等价性检验。具体流程包括：• 以预训练的代码嵌入模型（如Qwen3-Embedding-8B）获取代码样本的向量表示；• 计算样本两两之间的余弦距离，构建距离矩阵；• 从距离矩阵中提取MST，保留最具代表性的语义关系；• 利用MST的边权分布，采用高斯核估计确定自适应邻域阈值，进行密度聚类，形成语义等价类；• 最后，利用等价类的分布信息，计算FASE语义熵，估算代码的功能正确性。该方法避免了传统的LLM等价性检测，显著降低计算成本，提升了多智能体协作中的不确定性量化效率。

关键结果

在HumanEval和BigCodeBench数据集上，FASE相较于现有语义熵方法在Spearman相关系数上平均提升25%，ROCAUC得分提升19%，在Qwen3-Embedding-8B模型下，Pass@1的预测准确性显著增强。具体而言，FASE在多样化代码样本中表现出更强的功能一致性识别能力，有效区分正确与错误代码，验证了其在实际软件开发中的应用潜力。
通过消除LLM驱动的等价性检测，FASE的计算开销仅为传统方法的0.3%，在大规模多智能体工作流中实现了近零成本的实时不确定性评估。实验证明，该方法在保持高准确率的同时，大幅提升了系统的运行效率，特别适合在复杂、多任务环境下的自动代码生成和质量控制。
在不同的嵌入模型（如All-MiniLM-L6-v2、GTE-ModernBERT-base、Llama-Embed-Nemotron）上，FASE展现出良好的模型泛化能力，距离矩阵中的语义差异能够有效反映代码的功能差异。多模型、多数据集的实验验证了FASE的稳健性和适应性，为未来多智能体协作提供了理论基础和工程实现路径。

研究意义

该研究突破了传统基于LLM的语义熵计算的高成本瓶颈，为多智能体自动软件开发提供了一种高效、可靠的工具。通过引入基于嵌入的图结构分析，FASE实现了在无需大量LLM推理的情况下，准确估计代码的功能正确性。这不仅增强了系统的可扩展性，也为软件工程中的不确定性量化提供了新的理论框架。其在实际应用中，有助于提升自动代码生成的可信度和效率，推动自主软件开发向更高层次迈进。

技术贡献

本文提出的FASE方法结合了代码嵌入模型、最小生成树抽象和自适应密度聚类，创新性地实现了低成本、高效的语义熵估算。不同于传统的LLM等价性检测，FASE利用图结构捕获代码样本的语义关系，确保在保持较高准确率的同时，大幅降低计算复杂度。该方法提供了理论上的保证：通过距离矩阵的稀疏抽象，保留了最重要的语义信息，避免了高维空间中的冗余和噪声干扰，为多智能体系统中的不确定性评估提供了坚实的基础。

新颖性

本研究首次将最小生成树（MST）与动态密度聚类结合，用于代码语义熵的快速估算，突破了依赖LLM双向蕴涵检测的限制。相比于现有的结构和语义熵方法，FASE无需昂贵的推理操作，显著提升了计算效率和适用性。其核心创新在于利用嵌入模型的连续空间特性，通过图结构抽象实现对代码功能的高效捕捉，为自动化软件质量评估提供了全新的技术路径。

局限性

FASE的性能在极端复杂或模糊的代码样本中可能受到影响，特别是在嵌入模型对某些语义细节捕获不足时，可能导致误判。
当前方法依赖预训练的代码嵌入模型，其质量直接影响熵的估算效果。不同模型的表现差异尚未完全量化，未来需优化嵌入表示的鲁棒性。
尽管大幅降低了计算成本，但在超大规模代码库或极高实时性要求的场景下，仍需进一步优化算法的并行性和硬件适配能力。

未来方向

未来将探索多模态嵌入技术，结合静态分析和动态测试信息，进一步提升语义熵的准确性和鲁棒性。同时，计划引入深度学习中的自监督学习策略，增强模型对不同编程语言和复杂场景的适应能力。此外，将研究多智能体系统中熵的动态调整机制，以实现更智能化的代码质量监控和自动修复，推动自主软件工程的全面发展。

AI 总览摘要

在当今软件开发逐渐向自动化和智能化转型的背景下，确保代码质量和功能正确性成为核心挑战。传统的基于测试用例的验证方法虽然有效，但在大规模、多任务、多智能体的环境中，成本高昂且难以扩展。近年来，语义熵作为一种衡量模型输出不确定性的指标，为代码质量评估提供了新的思路。然而，现有的语义熵方法多依赖于昂贵的LLM双向蕴涵检测，限制了其在实际场景中的应用。

本文提出了FASE（Fast Adaptive Semantic Entropy），一种基于代码嵌入和图结构分析的高效不确定性估算方法。FASE利用预训练的代码嵌入模型，将生成的代码样本映射到连续的语义空间，计算两两之间的距离，构建距离矩阵。通过提取距离矩阵的最小生成树（MST），抽象出代码样本的核心语义关系，避免了繁琐的LLM推理。随后，采用自适应密度聚类算法，根据MST边权的分布动态确定聚类阈值，将代码样本划分为语义等价类。最终，利用等价类的分布信息，计算FASE语义熵，估算代码的功能正确性。

在HumanEval和BigCodeBench两个公开数据集上的实验结果显示，FASE在相关性指标上平均提升25%，在预测代码正确性方面表现优于现有方法19%。此外，FASE的计算开销仅为传统方法的0.3%，极大地提升了多智能体系统中不确定性评估的效率。这一创新方法不仅降低了成本，还增强了系统的可扩展性和鲁棒性，为未来自主软件工程提供了坚实的技术基础。

整体而言，FASE为代码生成中的不确定性量化提供了一种实用、成本低廉的解决方案，推动了自动化软件开发的智能化进程。未来，结合多模态信息和深度学习技术，FASE有望在更复杂、更大规模的场景中发挥更大作用，助力构建可信赖的自主软件系统。

深度解读

原文摘要

Multi-agent code generation offers a promising paradigm for autonomous software development by simulating the human software engineering lifecycle. However, system reliability remains hindered by LLM hallucinations and error propagation across interacting agents. While semantic entropy provides a principled way to quantify uncertainty without ground-truth answers, current methods often rely on costly LLM-driven equivalence checks. In this work, we introduce Fast Adaptive Semantic Entropy (FASE), a novel metric that approximates functional correctness based on the minimum spanning tree of structural and semantic dissimilarity graphs. Evaluations on HumanEval and BigCodeBench demonstrate that FASE outperforms state-of-the-art semantic entropy by LLM entailment, achieving a 25% average improvement in Spearman correlation and a 19% increase in ROCAUC score against Pass@1 from ground-truth test cases when using the Qwen3-Embedding-8B model. Furthermore, by eliminating costly LLM-driven equivalence evaluation, FASE incurs negligible computational overhead, requiring only approximately 0.3% of the runtime cost of traditional semantic entropy approaches. These results position FASE as a practical, cost-effective solution for optimizing uncertainty quantification in real-world multi-agent workflows.

cs.SE cs.AI cs.MA

FASE: Fast Adaptive Semantic Entropy for Code Quality

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度解读

原文摘要

相关论文

Probe-and-Refine Tuning of Repository Guidance for Coding Agents

Code2LoRA: Hypernetwork-Generated Adapters for Code Language Models under Software Evolution

Scaffold, Not Vocabulary? A Controlled, Two-Tier, Pre-Registered Study of a Popperian Code-Generation Skill

From Natural Language to Verified Code: Toward AI Assisted Problem-to-Code Generation with Dafny-Based Formal Verification

Code Review Agent Benchmark

Evaluating LLM-Based Test Generation Under Software Evolution