MARCH: Multi-Agent Reinforced Self-Check for LLM Hallucination

TL;DR

MARCH框架通过多智能体强化自检显著减少LLM幻觉,提升8B参数模型的事实一致性。

cs.CL 🔴 高级 2026-03-26 222 次浏览
Zhuo Li Yupeng Zhang Pengyu Cheng Jiajun Song Mengyu Zhou Hao Li Shujie Hu Yu Qin Erchao Zhao Xiaoxi Jiang Guanjun Jiang
多智能体 强化学习 幻觉检测 大语言模型 事实一致性

核心发现

方法论

MARCH框架通过多智能体强化学习实现对大语言模型幻觉的自检。该框架由三个专用智能体组成:Solver生成初始响应,Proposer将响应分解为可验证的原子命题,Checker在不参考Solver输出的情况下验证这些命题。通过信息不对称的设计,MARCH打破了自我确认偏差的循环。多智能体强化学习使智能体共同进化,优化事实一致性。

关键结果

  • 结果1:在幻觉基准测试中,MARCH显著降低了幻觉率。配备MARCH的8B参数LLM在多个基准测试中表现与闭源模型相当,表明其在RAG任务中的有效性。
  • 结果2:在RAGTruth和FaithBench基准测试中,MARCH-STEM和MARCH-General分别将平均准确率提高到74.93%和75.23%,相比于基础模型的55.20%有显著提升。
  • 结果3:在Facts Grounding基准测试中,MARCH-STEM和MARCH-General的事实性得分分别为85.23%和80.12%,显著高于基础模型的57.09%。

研究意义

MARCH框架通过打破自我确认偏差,显著提高了大语言模型在数据密集型任务中的事实一致性。这一方法为LLM的自我改进提供了可扩展的路径,尤其在金融、法律和医疗等高风险领域,减少幻觉对于提高模型的可靠性至关重要。MARCH的成功展示了多智能体协作在复杂任务中的潜力,推动了LLM在实际应用中的可信度提升。

技术贡献

MARCH通过多智能体强化学习实现了对LLM幻觉的自检,突破了传统方法的局限。其创新在于引入信息不对称的智能体协作机制,打破了自我确认偏差。该框架无需额外的人类注释或外部事实检查工具,展示了多智能体协作在复杂任务中的潜力,为LLM的自我改进提供了新的工程可能性。

新颖性

MARCH首次通过多智能体强化学习实现了对LLM幻觉的自检,打破了传统方法中的自我确认偏差。相比于现有的监督微调和RLHF方法,MARCH通过信息不对称的设计,提供了更细粒度的事实验证机制。

局限性

  • 局限1:MARCH的性能依赖于训练数据的质量和多样性。在高噪声和异质性强的文档中,智能体可能难以有效地进行事实验证。
  • 局限2:尽管MARCH在多个基准测试中表现出色,但其在特定领域的泛化能力仍需进一步验证。
  • 局限3:MARCH的计算成本较高,尤其在大规模数据集上进行训练时,可能需要大量的计算资源。

未来方向

未来工作可以集中在优化MARCH的计算效率和扩展其在不同领域的泛化能力。进一步的研究可以探索如何在更大规模的数据集上应用MARCH,并评估其在其他复杂任务中的性能。此外,结合其他先进的强化学习技术,可能进一步提高MARCH的事实一致性。

AI 总览摘要

在大语言模型(LLM)的应用中,幻觉问题一直是一个关键瓶颈,特别是在检索增强生成(RAG)系统中。现有的幻觉检测方法通常采用LLM作为裁判来验证输出,但这种方法存在固有的确认偏差,导致验证者无意中重复原始生成的错误。

为了解决这一问题,本文提出了多智能体强化自检(MARCH)框架,通过利用信息不对称来实现严格的事实对齐。MARCH框架由三个专门的智能体组成:Solver、Proposer和Checker。Solver生成初始RAG响应,Proposer将响应分解为可验证的原子命题,Checker在不参考Solver输出的情况下验证这些命题。

这种精心设计的信息不对称方案打破了自我确认偏差的循环。通过多智能体强化学习训练这一流程,使智能体能够共同进化并优化事实一致性。广泛的实验表明,MARCH显著降低了幻觉率。特别是,配备MARCH的8B参数LLM在多个基准测试中表现与强大的闭源模型相当。

MARCH为LLM通过共同进化实现事实自我改进铺平了可扩展的道路。该框架无需额外的人类注释或外部事实检查工具,展示了多智能体协作在复杂任务中的潜力。

然而,MARCH的性能依赖于训练数据的质量和多样性。在高噪声和异质性强的文档中,智能体可能难以有效地进行事实验证。此外,尽管MARCH在多个基准测试中表现出色,但其在特定领域的泛化能力仍需进一步验证。未来的研究可以集中在优化MARCH的计算效率和扩展其在不同领域的泛化能力。

深度分析

研究背景

大语言模型(LLM)近年来在自然语言处理领域取得了显著进展,尤其是在生成和理解任务中。然而,LLM在生成过程中常常会出现幻觉,即生成的内容与事实不符。这种现象在检索增强生成(RAG)系统中尤为明显,因为这些系统依赖于从外部文档中检索信息以生成响应。现有的幻觉检测方法通常采用LLM作为裁判来验证输出,但这种方法存在固有的确认偏差,导致验证者无意中重复原始生成的错误。为了提高LLM的事实一致性,研究者们尝试了多种方法,包括监督微调和基于人类反馈的强化学习(RLHF)。然而,这些方法在细粒度事实一致性方面仍然存在不足。

核心问题

LLM的幻觉问题是其在实际应用中面临的一个重大挑战。幻觉不仅影响模型的可信度,还可能在高风险领域(如金融、法律和医疗)带来严重后果。现有的幻觉检测方法通常依赖于LLM自身进行验证,但这种方法容易受到确认偏差的影响,导致验证结果不准确。此外,传统的强化学习方法在监督细粒度事实一致性方面存在局限,难以满足RAG任务的复杂需求。

核心创新

MARCH框架通过多智能体强化学习实现对LLM幻觉的自检,突破了传统方法的局限。其创新点包括:


  • �� 引入信息不对称的智能体协作机制,打破自我确认偏差。

  • �� 设计了三个专用智能体:Solver生成初始响应,Proposer将响应分解为可验证的原子命题,Checker在不参考Solver输出的情况下验证这些命题。

  • �� 通过多智能体强化学习使智能体共同进化,优化事实一致性。

这些创新使MARCH能够在不依赖额外人类注释或外部工具的情况下,显著提高LLM的事实一致性。

方法详解

MARCH框架通过以下步骤实现对LLM幻觉的自检:


  • �� Solver生成初始RAG响应:根据输入查询和检索到的文档,生成初始响应。

  • �� Proposer将响应分解为原子命题:将生成的响应分解为一系列可验证的原子命题,以便于后续验证。

  • �� Checker验证原子命题:在不参考Solver输出的情况下,基于检索到的文档验证这些原子命题。

  • �� 多智能体强化学习:通过多智能体强化学习训练这一流程,使智能体能够共同进化并优化事实一致性。

这种方法通过信息不对称的设计,打破了自我确认偏差的循环,提高了LLM的事实一致性。

实验设计

实验设计包括在多个幻觉基准测试上评估MARCH的性能。使用的数据集包括BioASQ、2WikiMultiHopQA和MuSiQue,涵盖了不同领域和任务类型。实验中采用了Meta-Llama3.1-8B-Instruct作为初始化策略,并通过多智能体强化学习进行训练。关键超参数包括学习率、批量大小和训练轮数。实验还进行了消融研究,以验证各组件的贡献。

结果分析

实验结果表明,MARCH在多个基准测试中显著降低了幻觉率。具体而言,在RAGTruth和FaithBench基准测试中,MARCH-STEM和MARCH-General分别将平均准确率提高到74.93%和75.23%,相比于基础模型的55.20%有显著提升。在Facts Grounding基准测试中,MARCH-STEM和MARCH-General的事实性得分分别为85.23%和80.12%,显著高于基础模型的57.09%。这些结果表明,MARCH能够有效增强LLM的事实一致性。

应用场景

MARCH框架在多个领域具有广泛的应用潜力。直接应用场景包括:


  • �� 金融领域:提高财务报告和分析的准确性,减少错误信息带来的风险。

  • �� 法律领域:帮助法律从业者进行案例分析和法律文书撰写,确保信息的准确性。

  • �� 医疗领域:支持医学文献的检索和分析,提供准确的医学建议。

这些应用场景需要高质量的数据和强大的计算能力,以充分发挥MARCH的潜力。

局限与展望

尽管MARCH在多个基准测试中表现出色,但其在特定领域的泛化能力仍需进一步验证。此外,MARCH的计算成本较高,尤其在大规模数据集上进行训练时,可能需要大量的计算资源。未来的研究可以集中在优化MARCH的计算效率和扩展其在不同领域的泛化能力。

通俗解读 非专业人士也能看懂

想象一下你在厨房里做饭。你有一个助手(Solver),他负责根据食谱准备所有的食材。然后,你有一个检查员(Proposer),他会把每道菜分解成具体的步骤,比如切菜、炒菜等。最后,你有一个品尝员(Checker),他会在不看食谱的情况下,单独品尝每道菜,确保它们的味道和食谱一致。

在这个过程中,助手可能会犯错,比如用错了食材或者步骤不对。检查员的任务就是在不受助手影响的情况下,独立验证每道菜的味道是否正确。这种方法确保了每道菜的质量,而不是简单地相信助手的判断。

MARCH框架就像这个厨房团队,通过多智能体的协作,确保大语言模型生成的内容与事实一致。每个智能体都有自己的角色和任务,通过信息不对称的设计,打破了传统方法中的确认偏差,显著提高了模型的准确性和可靠性。

简单解释 像给14岁少年讲一样

嘿,小伙伴们!想象一下你在玩一个超级复杂的游戏,这个游戏需要你和你的朋友们一起合作。你是游戏里的主角(Solver),负责根据任务指引做出决策。然后,你的一个朋友(Proposer)会把你的任务分解成小任务,比如打怪、收集物品等。最后,还有一个朋友(Checker),他会在不看你做的事情的情况下,独立检查每个小任务是否完成得好。

这个游戏有个大挑战,就是有时候你可能会犯错,比如打错了怪或者收集了错误的物品。Checker的任务就是确保每个小任务都完成得正确,而不是简单地相信你做的事情。

这就像MARCH框架,通过多智能体的协作,确保大语言模型生成的内容与事实一致。每个智能体都有自己的角色和任务,通过信息不对称的设计,打破了传统方法中的确认偏差,显著提高了模型的准确性和可靠性。是不是很酷?

术语表

多智能体强化学习 (Multi-Agent Reinforcement Learning)

一种机器学习方法,多个智能体通过相互协作和竞争来学习解决复杂任务。

MARCH框架使用多智能体强化学习来训练智能体进行事实验证。

幻觉 (Hallucination)

在自然语言处理中,模型生成的内容与事实不符的现象。

MARCH框架旨在减少大语言模型中的幻觉现象。

信息不对称 (Information Asymmetry)

在信息处理过程中,不同参与者拥有不同的信息量。

MARCH通过信息不对称设计打破自我确认偏差。

检索增强生成 (Retrieval-Augmented Generation, RAG)

一种生成方法,通过检索外部文档来增强生成内容的准确性。

MARCH框架在RAG系统中应用,以提高生成内容的事实一致性。

确认偏差 (Confirmation Bias)

一种认知偏差,倾向于验证已有信念而忽视相反证据。

MARCH通过信息不对称设计打破自我确认偏差。

监督微调 (Supervised Fine-Tuning, SFT)

通过标注数据对模型进行微调,以提高其在特定任务上的表现。

传统的SFT方法在细粒度事实一致性方面存在局限。

人类反馈强化学习 (Reinforcement Learning from Human Feedback, RLHF)

通过人类反馈来优化模型决策的强化学习方法。

RLHF通常用于提高模型的事实一致性。

原子命题 (Atomic Proposition)

一个可以独立验证的最小事实单位。

Proposer将响应分解为可验证的原子命题。

消融研究 (Ablation Study)

通过移除或替换模型的某些部分来评估其对整体性能的影响。

实验中进行了消融研究,以验证各组件的贡献。

事实一致性 (Factual Consistency)

生成内容与真实世界事实的一致性。

MARCH框架旨在提高大语言模型的事实一致性。

开放问题 这项研究留下的未解疑问

  • 1 开放问题1:如何在高噪声和异质性强的文档中有效地进行事实验证?现有方法在处理这些复杂场景时表现不佳,需要更强大的算法来提高验证的准确性。
  • 2 开放问题2:MARCH在特定领域的泛化能力如何?尽管在多个基准测试中表现出色,但其在特定领域的适应性仍需进一步验证。
  • 3 开放问题3:如何降低MARCH的计算成本?目前的计算成本较高,尤其在大规模数据集上进行训练时,需要大量的计算资源。
  • 4 开放问题4:如何进一步优化MARCH的计算效率?未来的研究可以集中在优化算法的计算效率,以便在更大规模的数据集上应用。
  • 5 开放问题5:如何结合其他先进的强化学习技术来提高MARCH的事实一致性?探索新的技术组合可能进一步提升模型性能。
  • 6 开放问题6:在没有额外人类注释的情况下,如何进一步提高MARCH的性能?需要探索新的数据增强和自监督学习方法。
  • 7 开放问题7:如何在不同领域和任务中扩展MARCH的应用?需要验证其在其他复杂任务中的性能和适应性。

应用场景

近期应用

金融分析

提高财务报告和分析的准确性,减少错误信息带来的风险,帮助金融从业者做出更准确的决策。

法律文书撰写

帮助法律从业者进行案例分析和法律文书撰写,确保信息的准确性,提高法律服务的质量。

医学文献分析

支持医学文献的检索和分析,提供准确的医学建议,帮助医疗从业者做出更好的诊断和治疗决策。

远期愿景

智能助手

开发更智能的个人助手,能够在多个领域提供准确的信息和建议,提升用户体验和满意度。

自动化决策系统

在多个行业中应用自动化决策系统,提高效率和准确性,减少人为错误和偏差。

原文摘要

Hallucination remains a critical bottleneck for large language models (LLMs), undermining their reliability in real-world applications, especially in Retrieval-Augmented Generation (RAG) systems. While existing hallucination detection methods employ LLM-as-a-judge to verify LLM outputs against retrieved evidence, they suffer from inherent confirmation bias, where the verifier inadvertently reproduces the errors of the original generation. To address this, we introduce Multi-Agent Reinforced Self-Check for Hallucination (MARCH), a framework that enforces rigorous factual alignment by leveraging deliberate information asymmetry. MARCH orchestrates a collaborative pipeline of three specialized agents: a Solver, a Proposer, and a Checker. The Solver generates an initial RAG response, which the Proposer decomposes into claim-level verifiable atomic propositions. Crucially, the Checker validates these propositions against retrieved evidence in isolation, deprived of the Solver's original output. This well-crafted information asymmetry scheme breaks the cycle of self-confirmation bias. By training this pipeline with multi-agent reinforcement learning (MARL), we enable the agents to co-evolve and optimize factual adherence. Extensive experiments across hallucination benchmarks demonstrate that MARCH substantially reduces hallucination rates. Notably, an 8B-parameter LLM equipped with MARCH achieves performance competitive with powerful closed-source models. MARCH paves a scalable path for factual self-improvement of LLMs through co-evolution. The code is at https://github.com/Qwen-Applications/MARCH.

cs.CL

参考文献 (20)

Improving Factuality and Reasoning in Language Models through Multiagent Debate

Yilun Du, Shuang Li, A. Torralba 等

2023 1399 引用 ⭐ 高影响力 查看解读 →

Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

Patrick Lewis, Ethan Perez, Aleksandara Piktus 等

2020 12304 引用 ⭐ 高影响力 查看解读 →

Efficient Memory Management for Large Language Model Serving with PagedAttention

Woosuk Kwon, Zhuohan Li, Siyuan Zhuang 等

2023 5077 引用 ⭐ 高影响力 查看解读 →

MetaGPT: Meta Programming for Multi-Agent Collaborative Framework

Sirui Hong, Xiawu Zheng, Jonathan P. Chen 等

2023 1517 引用 ⭐ 高影响力 查看解读 →

Proximal Policy Optimization Algorithms

John Schulman, Filip Wolski, Prafulla Dhariwal 等

2017 26067 引用 ⭐ 高影响力 查看解读 →

Interleaving Retrieval with Chain-of-Thought Reasoning for Knowledge-Intensive Multi-Step Questions

H. Trivedi, Niranjan Balasubramanian, Tushar Khot 等

2022 871 引用 ⭐ 高影响力 查看解读 →

♫ MuSiQue: Multihop Questions via Single-hop Question Composition

H. Trivedi, Niranjan Balasubramanian, Tushar Khot 等

2021 695 引用 ⭐ 高影响力 查看解读 →

LEGO: A Multi-agent Collaborative Framework with Role-playing and Iterative Feedback for Causality Explanation Generation

Zhitao He, Pengfei Cao, Yubo Chen 等

2023 36 引用

Does Context Matter? ContextualJudgeBench for Evaluating LLM-based Judges in Contextual Settings

Austin Xu, Srijan Bansal, Yifei Ming 等

2025 16 引用 查看解读 →

CAMEL: Communicative Agents for "Mind" Exploration of Large Language Model Society

G. Li, Hasan Hammoud, Hani Itani 等

2023 1174 引用 查看解读 →

Collab-RAG: Boosting Retrieval-Augmented Generation for Complex Question Answering via White-Box and Black-Box LLM Collaboration

Ran Xu, Wenqi Shi, Yuchen Zhuang 等

2025 21 引用 查看解读 →

RANK ANALYSIS OF INCOMPLETE BLOCK DESIGNS THE METHOD OF PAIRED COMPARISONS

R. Bradley, M. E. Terry

1952 4022 引用

Qwen2.5 Technical Report

Qwen An Yang, Baosong Yang, Beichen Zhang 等

2024 3457 引用 查看解读 →

Enhancing Retrieval-Augmented Large Language Models with Iterative Retrieval-Generation Synergy

Zhihong Shao, Yeyun Gong, Yelong Shen 等

2023 446 引用 查看解读 →

Retrieval Augmentation Reduces Hallucination in Conversation

Kurt Shuster, Spencer Poff, Moya Chen 等

2021 1006 引用 查看解读 →

Rubrics as Rewards: Reinforcement Learning Beyond Verifiable Domains

Anisha Gunjal, Anthony Wang, Elaine Lau 等

2025 114 引用 查看解读 →

MACRec: A Multi-Agent Collaboration Framework for Recommendation

Zhefan Wang, Yuanqing Yu, Wen-Xun Zheng 等

2024 72 引用 查看解读 →

GLIDER: Grading LLM Interactions and Decisions using Explainable Ranking

Darshan Deshpande, Selvan Sunitha Ravi, Sky CH-Wang 等

2024 10 引用 查看解读 →

TruthfulQA: Measuring How Models Mimic Human Falsehoods

Stephanie C. Lin, Jacob Hilton, Owain Evans

2021 2997 引用 查看解读 →

Gemini

M. Yates

2009 490 引用