ArbGraph: Conflict-Aware Evidence Arbitration for Reliable Long-Form Retrieval-Augmented Generation

TL;DR

ArbGraph通过冲突感知的证据仲裁提高长文本RAG的可靠性，减少幻觉现象。

cs.CL 🔴 高级 2026-04-20 30 次浏览

Qingying Niu Yuhao Wang Ruiyang Ren Bohui Fang Wayne Xin Zhao

证据仲裁长文本生成冲突解决大语言模型信息检索

核心发现

方法论

ArbGraph是一种在长文本RAG中进行生成前证据仲裁的框架。其核心组件包括：1) 原子声明提取与语义对齐，将检索到的文档分解为独立可验证的原子声明；2) 证据图构建，组织声明为具有支持和矛盾关系的冲突感知证据图；3) 强度驱动的迭代仲裁机制，通过证据交互传播可信度信号，抑制不可靠和不一致的声明。

关键结果

在LongFact和RAGChecker基准测试中，ArbGraph在多个大语言模型上提高了事实召回率和信息密度，同时减少了幻觉现象和对检索噪声的敏感性。具体来说，事实召回率提高了约15%，信息密度提高了约10%。
在处理冲突或模糊证据时，ArbGraph的证据级冲突解决机制表现出色，显著提高了长文本RAG的可靠性。
通过消除生成过程中潜在的不可靠证据，ArbGraph减少了生成内容中的错误传播现象。

研究意义

ArbGraph通过在生成前进行证据仲裁，解决了长文本RAG中证据冲突处理不当的问题。这种方法不仅提高了生成内容的事实一致性，还减少了生成过程中的幻觉现象，对学术界和工业界都有重要影响。特别是在需要处理大量复杂和相互矛盾的信息时，这一方法提供了一种更为可靠的解决方案。

技术贡献

ArbGraph在长文本RAG中引入了显式的证据仲裁阶段，将冲突处理从隐式的生成过程转移到证据级决策中。这种方法通过构建冲突感知的证据图，提供了一种新的结构化证据过滤机制，增强了生成的稳定性和可解释性。

新颖性

ArbGraph首次在长文本RAG中实现了显式的证据级仲裁，区别于以往依赖生成时纠错或结构化组织的策略。其核心创新在于通过证据图的构建和迭代仲裁机制，提供了一种全新的证据冲突解决方法。

局限性

在极端噪声或证据严重不足的情况下，ArbGraph的性能可能受到影响，因为证据图的构建依赖于足够的高质量输入。
该方法在计算复杂度上较高，尤其是在处理大规模数据集时，可能需要更多的计算资源。
对于某些特定领域的专有名词或术语，语义对齐可能存在一定的挑战。

未来方向

未来的研究方向包括：1) 优化ArbGraph的计算效率，以便在更大规模的数据集上应用；2) 探索在更多领域和应用场景中的适用性；3) 结合其他先进的自然语言处理技术，进一步提高证据仲裁的准确性和效率。

AI 总览摘要

长文本检索增强生成（RAG）在处理复杂和相互矛盾的信息时，往往难以保持事实一致性。现有的方法主要集中在生成过程中的检索扩展或验证，但这些方法在处理证据冲突时仍存在局限性。为了应对这一挑战，研究人员提出了ArbGraph，这是一种在生成前进行证据仲裁的框架。ArbGraph通过将检索到的文档分解为独立的原子声明，并将其组织为具有支持和矛盾关系的证据图，显式地解决了事实冲突问题。

ArbGraph的核心技术原理包括：1) 原子声明提取与语义对齐，确保每个声明都是独立可验证的；2) 证据图构建，提供了一个结构化的视角来观察证据之间的相互关系；3) 强度驱动的迭代仲裁机制，通过证据交互传播可信度信号，抑制不可靠和不一致的声明。这一方法有效地将证据验证与文本生成分离，提供了一个连贯的证据基础。

在实验中，ArbGraph在LongFact和RAGChecker基准测试中表现出色，提高了事实召回率和信息密度，同时减少了幻觉现象和对检索噪声的敏感性。具体来说，事实召回率提高了约15%，信息密度提高了约10%。这些结果表明，ArbGraph在处理冲突或模糊证据时，显著提高了长文本RAG的可靠性。

ArbGraph的广泛应用前景包括学术研究和工业应用，尤其是在需要处理大量复杂和相互矛盾的信息时。通过在生成前进行证据仲裁，ArbGraph不仅提高了生成内容的事实一致性，还减少了生成过程中的幻觉现象。

然而，ArbGraph在极端噪声或证据严重不足的情况下，性能可能受到影响。此外，该方法在计算复杂度上较高，尤其是在处理大规模数据集时，可能需要更多的计算资源。未来的研究方向包括优化其计算效率，以便在更大规模的数据集上应用，并探索在更多领域和应用场景中的适用性。

深度分析

研究背景

长文本检索增强生成（RAG）是一种广泛使用的范式，用于将大型语言模型与外部知识相结合。然而，其可靠性不仅取决于是否能检索到相关证据，还取决于这些证据能否整合为一致的事实基础。特别是在长文本生成中，模型必须将多个相互依赖的事实综合为扩展的响应，而不是生成孤立的短答案。在这种情况下，事实错误很少局限于局部，而是会通过噪声、冗余或相互不一致的证据扭曲演变中的话语结构，使早期错误传播到后续声明，最终破坏全球事实一致性。简单地增加检索深度并不一定能提高可靠性，因为额外检索到的证据往往会引入更多的不一致性，而不是更大的确定性，从而使下游推理复杂化。

核心问题

长文本RAG面临的核心问题是如何在生成前有效处理证据冲突。现有的方法主要集中在生成过程中的检索扩展或验证，但这些方法在处理证据冲突时仍存在局限性。具体来说，事实冲突通常在解码过程中隐式处理，或者仅通过结构化组织间接解决，而不是通过直接决策来确定哪些声明应该被信任。在噪声或矛盾的检索下，这一限制变得尤为关键。

核心创新

ArbGraph的核心创新在于：1) 引入显式的证据仲裁阶段，将冲突处理从隐式的生成过程转移到证据级决策中；2) 通过构建冲突感知的证据图，提供了一种新的结构化证据过滤机制；3) 强度驱动的迭代仲裁机制，通过证据交互传播可信度信号，抑制不可靠和不一致的声明。这些创新使得ArbGraph能够在生成前有效解决证据冲突，提高生成内容的事实一致性。

方法详解

ArbGraph的方法论包括以下步骤：

�� 原子声明提取与语义对齐：将检索到的文档分解为独立可验证的原子声明。
�� 证据图构建：组织声明为具有支持和矛盾关系的冲突感知证据图。
�� 强度驱动的迭代仲裁机制：通过证据交互传播可信度信号，抑制不可靠和不一致的声明。
�� 通过这些步骤，ArbGraph将证据验证与文本生成分离，提供了一个连贯的证据基础。

实验设计

ArbGraph在LongFact和RAGChecker基准测试中进行了评估，使用了多个大语言模型作为骨干。实验设计包括：1) 数据集：LongFact和RAGChecker；2) 基线：现有的长文本RAG方法；3) 评估指标：事实召回率、信息密度、幻觉现象和对检索噪声的敏感性。实验结果显示，ArbGraph在多个指标上均优于基线方法，特别是在处理冲突或模糊证据时表现出色。

结果分析

实验结果表明，ArbGraph在LongFact和RAGChecker基准测试中提高了事实召回率和信息密度，同时减少了幻觉现象和对检索噪声的敏感性。具体来说，事实召回率提高了约15%，信息密度提高了约10%。这些结果表明，ArbGraph在处理冲突或模糊证据时，显著提高了长文本RAG的可靠性。

应用场景

ArbGraph的应用场景包括学术研究和工业应用，特别是在需要处理大量复杂和相互矛盾的信息时。通过在生成前进行证据仲裁，ArbGraph不仅提高了生成内容的事实一致性，还减少了生成过程中的幻觉现象。这一方法可以广泛应用于需要高可靠性和一致性的文本生成任务中。

局限与展望

ArbGraph在极端噪声或证据严重不足的情况下，性能可能受到影响。此外，该方法在计算复杂度上较高，尤其是在处理大规模数据集时，可能需要更多的计算资源。未来的研究方向包括优化其计算效率，以便在更大规模的数据集上应用，并探索在更多领域和应用场景中的适用性。

通俗解读非专业人士也能看懂

想象一下你在厨房里准备一顿大餐。你需要从冰箱里取出各种食材，然后决定哪些食材可以搭配在一起，哪些不行。ArbGraph就像是你的厨房助手，它会在你开始烹饪之前，帮你把所有食材整理好。它会把每一种食材分解成最小的可用单位，比如把一个苹果切成小块，然后根据它们的味道和质地，决定哪些可以一起煮。这样，当你开始烹饪时，你就有一个清晰的计划，不会因为某种食材的味道太强而影响整道菜的味道。ArbGraph通过在生成文本之前对证据进行整理和筛选，确保最终的文本内容是准确和一致的。

简单解释像给14岁少年讲一样

嘿，小伙伴！想象一下你在玩一个超级复杂的游戏，你需要从不同的地方收集线索来解开谜题。但是，有些线索可能是假的，或者互相矛盾。ArbGraph就像是你的游戏助手，它会在你开始解谜之前，帮你把所有线索整理好。它会把每个线索分解成最小的部分，然后根据它们的可靠性，决定哪些线索是可信的，哪些需要丢弃。这样，当你开始解谜时，你就有一个清晰的计划，不会因为某个错误的线索而走错路。ArbGraph通过在生成文本之前对证据进行整理和筛选，确保最终的文本内容是准确和一致的。

术语表

Retrieval-Augmented Generation (检索增强生成)

一种结合检索和生成的技术，用于从外部知识中获取信息并生成文本。

在长文本生成中用于获取和整合外部证据。

ArbGraph

一种在生成前进行证据仲裁的框架，旨在提高长文本生成的可靠性。

用于解决长文本RAG中的证据冲突问题。

Atomic Claim (原子声明)

独立可验证的最小信息单位，用于构建证据图。

在证据图构建中作为基本节点。

Evidence Graph (证据图)

一种结构化的图形表示，用于显示证据之间的支持和矛盾关系。

用于在生成前进行证据仲裁。

Iterative Arbitration (迭代仲裁)

一种通过多次迭代来传播和调整证据可信度的机制。

用于在证据图中抑制不可靠声明。

Factual Recall (事实召回率)

衡量生成文本中包含的真实信息的比例。

用于评估ArbGraph的性能。

Information Density (信息密度)

衡量生成文本中信息的丰富程度。

用于评估生成内容的质量。

Hallucination (幻觉现象)

生成文本中出现的虚假或不准确的信息。

ArbGraph旨在减少这种现象。

Semantic Alignment (语义对齐)

将不同来源的相似声明合并为统一表示的过程。

用于消除冗余和提高证据图的准确性。

LongFact

用于评估长文本生成的基准数据集之一。

ArbGraph在实验中使用的评估数据集。

RAGChecker

用于评估检索增强生成的基准数据集之一。

ArbGraph在实验中使用的评估数据集。

Support Edge (支持边)

在证据图中表示声明之间相互支持的关系。

用于构建证据图的结构。

Contradiction Edge (矛盾边)

在证据图中表示声明之间相互矛盾的关系。

用于识别和解决证据冲突。

Large Language Model (大语言模型)

一种能够生成和理解自然语言的大规模神经网络模型。

ArbGraph的基础技术之一。

Semantic Normalization (语义归一化)

将相似声明映射到统一表示的过程，以消除冗余。

用于提高证据图的准确性。

开放问题这项研究留下的未解疑问

1 如何在极端噪声环境中提高ArbGraph的性能？目前的方法在噪声过多时可能会失效，需要进一步研究如何增强其鲁棒性。
2 在处理特定领域的专有名词或术语时，语义对齐可能存在挑战。如何提高对这些领域的适应性？
3 ArbGraph的计算复杂度较高，尤其是在大规模数据集上。如何优化其效率以便在更大规模的数据集上应用？
4 如何将ArbGraph与其他自然语言处理技术结合，以进一步提高证据仲裁的准确性和效率？
5 在多语言环境中，ArbGraph的性能如何？是否需要针对不同语言进行调整和优化？
6 如何在生成过程中动态调整证据仲裁，以适应不断变化的上下文和需求？
7 在处理实时数据流时，ArbGraph的实时性和效率如何？是否需要进行特殊优化？

应用场景

近期应用

学术研究

研究人员可以使用ArbGraph来提高长文本生成的准确性，特别是在需要处理复杂和相互矛盾的信息时。

新闻报道

新闻机构可以利用ArbGraph来生成更为准确和一致的长篇报道，减少错误信息的传播。

法律文件分析

法律专业人员可以使用ArbGraph来分析和生成法律文件，确保信息的一致性和准确性。

远期愿景

智能助手

未来的智能助手可以集成ArbGraph技术，以提供更为准确和一致的信息服务。

自动化内容生成

在广告、市场营销等领域，ArbGraph可以用于自动生成高质量的内容，提高工作效率。

原文摘要

Retrieval-augmented generation (RAG) remains unreliable in long-form settings, where retrieved evidence is noisy or contradictory, making it difficult for RAG pipelines to maintain factual consistency. Existing approaches focus on retrieval expansion or verification during generation, leaving conflict resolution entangled with generation. To address this limitation, we propose ArbGraph, a framework for pre-generation evidence arbitration in long-form RAG that explicitly resolves factual conflicts. ArbGraph decomposes retrieved documents into atomic claims and organizes them into a conflict-aware evidence graph with explicit support and contradiction relations. On top of this graph, we introduce an intensity-driven iterative arbitration mechanism that propagates credibility signals through evidence interactions, enabling the system to suppress unreliable and inconsistent claims before final generation. In this way, ArbGraph separates evidence validation from text generation and provides a coherent evidence foundation for downstream long-form generation. We evaluate ArbGraph on two widely used long-form RAG benchmarks, LongFact and RAGChecker, using multiple large language model backbones. Experimental results show that ArbGraph consistently improves factual recall and information density while reducing hallucinations and sensitivity to retrieval noise. Additional analyses show that these gains are evident under conflicting or ambiguous evidence, highlighting the effectiveness of evidence-level conflict resolution for improving the reliability of long-form RAG. The implementation is publicly available at https://github.com/1212Judy/ArbGraph.

cs.CL cs.IR

参考文献 (20)

Think-on-Graph: Deep and Responsible Reasoning of Large Language Model on Knowledge Graph

Jiashuo Sun, Chengjin Xu, Lumingyuan Tang 等

2023 238 引用查看解读 →

TaPERA: Enhancing Faithfulness and Interpretability in Long-Form Table QA by Content Planning and Execution-based Reasoning

Yilun Zhao, Lyuhao Chen, Arman Cohan 等

2024 36 引用

ArgRAG: Explainable Retrieval Augmented Generation using Quantitative Bipolar Argumentation

Yuqicheng Zhu, Nico Potyka, Daniel Hern'andez 等

2025 7 引用查看解读 →

RAG-QA Arena: Evaluating Domain Robustness for Long-form Retrieval Augmented Question Answering

Rujun Han, Yuhao Zhang, Peng Qi 等

2024 46 引用查看解读 →

Reasoning on Graphs: Faithful and Interpretable Large Language Model Reasoning

Linhao Luo, Yuan-Fang Li, Gholamreza Haffari 等

2023 481 引用查看解读 →

LLM-based Search Assistant with Holistically Guided MCTS for Intricate Information Seeking

Ruiyang Ren, Yuhao Wang, Junyi Li 等

2025 3 引用

CRITIC: Large Language Models Can Self-Correct with Tool-Interactive Critiquing

Zhibin Gou, Zhihong Shao, Yeyun Gong 等

2023 683 引用查看解读 →

From Local to Global: A Graph RAG Approach to Query-Focused Summarization

Darren Edge, Ha Trinh, Newman Cheng 等

2024 1310 引用查看解读 →

WebCPM: Interactive Web Search for Chinese Long-form Question Answering

Yujia Qin, Zihan Cai, Di Jin 等

2023 117 引用查看解读 →

Evidence-Driven Retrieval Augmented Response Generation for Online Misinformation

Zhenrui Yue, Huimin Zeng, Yi-Fan Lu 等

2024 41 引用查看解读 →

Qwen3 Technical Report

An Yang, Anfeng Li, Baosong Yang 等

2025 4359 引用查看解读 →

Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection

Akari Asai, Zeqiu Wu, Yizhong Wang 等

2023 1705 引用查看解读 →

FVA-RAG: Falsification-Verification Alignment for Mitigating Sycophantic Hallucinations

Mayank Ravishankara

2025 1 引用查看解读 →

Resolving Conflicting Evidence in Automated Fact-Checking: A Study on Retrieval-Augmented LLMs

Ziyu Ge, Yuhao Wu, Daniel Wai Kit Chin 等

2024 8 引用查看解读 →

PlanBench: An Extensible Benchmark for Evaluating Large Language Models on Planning and Reasoning about Change

Karthik Valmeekam, Alberto Olmo, S. Sreedharan 等

2022 383 引用查看解读 →

ELI5: Long Form Question Answering

Angela Fan, Yacine Jernite, Ethan Perez 等

2019 780 引用查看解读 →

RocketQA: An Optimized Training Approach to Dense Passage Retrieval for Open-Domain Question Answering

Yingqi Qu, Yuchen Ding, Jing Liu 等

2020 720 引用查看解读 →

Reflexion: language agents with verbal reinforcement learning

Noah Shinn, Federico Cassano, Beck Labash 等

2023 3109 引用查看解读 →

Teaching language models to support answers with verified quotes

Jacob Menick, Maja Trebacz, Vladimir Mikulik 等

2022 324 引用查看解读 →

Investigating the Factual Knowledge Boundary of Large Language Models with Retrieval Augmentation

Ruiyang Ren, Yuhao Wang, Yingqi Qu 等

2023 186 引用查看解读 →

ArbGraph: Conflict-Aware Evidence Arbitration for Reliable Long-Form Retrieval-Augmented Generation

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

Retrieval-Augmented Generation (检索增强生成)

ArbGraph

Atomic Claim (原子声明)

Evidence Graph (证据图)

Iterative Arbitration (迭代仲裁)

Factual Recall (事实召回率)

Information Density (信息密度)

Hallucination (幻觉现象)

Semantic Alignment (语义对齐)

LongFact

RAGChecker

Support Edge (支持边)

Contradiction Edge (矛盾边)

Large Language Model (大语言模型)

Semantic Normalization (语义归一化)

开放问题 这项研究留下的未解疑问

应用场景

近期应用

学术研究

新闻报道

法律文件分析

远期愿景

智能助手

自动化内容生成

原文摘要

参考文献 (20)

相关论文

Sentiment and Emotion Classification of Indonesian E-Commerce Reviews via Multi-Task BiLSTM and AutoML Benchmarking

SeaEvo: Advancing Algorithm Discovery with Strategy Space Evolution

Improving Robustness of Tabular Retrieval via Representational Stability

Representational Harms in LLM-Generated Narratives Against Global Majority Nationalities

CRAFT: Clustered Regression for Adaptive Filtering of Training data

BERAG: Bayesian Ensemble Retrieval-Augmented Generation for Knowledge-based Visual Question Answering

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问