Retrieval Improvements Do Not Guarantee Better Answers: A Study of RAG for AI Policy QA

TL;DR

研究发现，RAG系统的检索改进未必提升问答性能，尤其在AI政策分析中。

cs.CL 🔴 高级 2026-03-26 47 次浏览

Saahil Mathur Ryan David Rittner Vedant Ajit Thakur Daniel Stuart Schiff Tunazzina Islam

RAG AI治理检索增强生成政策分析机器学习

核心发现

方法论

本文研究了RAG系统在AI政策问答中的应用，使用AGORA语料库进行实验。系统结合了基于ColBERT的检索器和通过直接偏好优化（DPO）对齐的人类偏好生成器。检索器通过对比学习进行微调，生成器则通过收集成对偏好数据进行对齐。实验评估了检索质量、答案相关性和忠实性，发现领域特定的微调虽然改善了检索指标，但未能一致地提高问答性能。

关键结果

结果1：检索器的微调改善了检索指标，如平均互惠排名（MRR）提高到0.748，但在问答性能上未见显著提升。
结果2：在某些情况下，增强的检索反而导致更自信的幻觉，尤其当相关文档缺失时。
结果3：GPT-5.4基线模型在没有网络搜索的情况下，答案准确率显著高于RAG系统。

研究意义

本研究揭示了在构建面向政策的RAG系统时的重要挑战：单个组件的改进不一定会转化为更可靠的答案。这对于需要在动态监管语料库上设计扎实问答系统的研究人员和开发者具有重要意义。研究结果为如何在复杂的政策文本中实现更可靠的问答提供了实用见解。

技术贡献

本文的技术贡献包括：1）提出了一种结合对比学习和偏好对齐的RAG管道，适用于政策分析任务；2）分析了检索指标的改进如何在某些情况下导致更自信的幻觉；3）提供了在动态监管语料库上设计问答系统的实用建议。

新颖性

本研究首次系统性地分析了RAG系统在AI政策问答中的应用，特别是在检索增强生成的背景下。与以往工作相比，本文强调了检索和生成组件之间的相互作用及其对问答性能的影响。

局限性

局限1：当语料库中缺少相关文档时，系统可能会生成自信但不准确的答案。
局限2：生成器在处理跨司法管辖区的政策时，可能会错误地引用不相关的文档。
局限3：偏好数据的收集受到领域专家可用性的限制，可能未能充分捕捉政策研究人员的期望。

未来方向

未来研究可以探索更强的幻觉缓解策略、跨文档上下文的扎实性以及改进的文档状态变化处理。作者建议进一步研究如何在高风险任务中有效应用RAG系统，特别是在政策分析中。

AI 总览摘要

在快速发展的人工智能治理领域，政府和监管机构正不断引入新的法律、指南和标准。这些政策文件通常篇幅较长，法律术语密集，分布在多个司法管辖区，使得分析和比较变得困难。AI治理和监管档案（AGORA）等资源提供了结构化的AI政策文件集合，但从这些材料中提取见解仍需大量人工努力。自动化问答系统可以帮助研究人员和政策制定者驾驭这一不断增长的法规体系。

大型语言模型（LLMs）为分析复杂文本提供了强大的工具，但它们在处理法律和监管文件时往往遇到困难，原因在于领域特定术语、概念模糊性和嵌套引用。此外，直接应用于政策语料库时，LLMs可能会生成流畅但不支持的主张。检索增强生成（RAG）通过在检索到的文档中定位响应来解决这一限制，但RAG的有效性在很大程度上取决于检索质量和生成对齐。

尽管检索器训练和基于偏好的对齐最近取得了进展，但尚不清楚对RAG组件的改进是否能一致地转化为更好的端到端问答性能，特别是在复杂和高风险的领域。AI治理语料库等领域面临特别严重的挑战，法律语言密集，有时政策和技术术语模糊不清，以及跨部门和司法管辖区的监管覆盖范围不断演变和交叉引用。

在这项工作中，我们研究了领域适应如何影响AI政策问答的RAG系统。我们在AGORA语料库上构建了一个RAG管道，使用基于ColBERT的检索器和通过直接偏好优化（DPO）对齐的人类偏好生成器。检索器通过使用合成生成的查询和手动标记的示例进行对比学习进行微调，而生成器则使用从政策重点问题回答任务中收集的成对偏好数据进行对齐。

我们的实验评估了检索性能、答案相关性和响应忠实性。我们发现，尽管检索器微调改善了检索指标，但它并未一致地改善端到端问答性能。在某些情况下，当语料库中缺少相关文档时，增强的检索反而导致更自信的幻觉。这些发现突显了政策重点RAG系统的重要挑战：对单个组件的改进不一定会转化为更可靠的扎实响应。我们的贡献包括：

1）对AGORA语料库中AI治理文件进行问答的检索增强生成的实证研究。

2）结合对比检索器微调和基于偏好的生成器对齐的领域适应RAG管道，用于政策分析任务。

3）分析表明，检索指标的改进可能不会转化为更好的端到端问答性能，并且在基础语料库缺乏覆盖时可能会增加自信的幻觉。

深度分析

研究背景

人工智能（AI）治理领域正迅速发展，各国政府和监管机构不断推出新的法律、指南和标准。这些政策文件通常篇幅较长，法律术语密集，分布在多个司法管辖区，使得分析和比较变得困难。AI治理和监管档案（AGORA）等资源提供了结构化的AI政策文件集合，但从这些材料中提取见解仍需大量人工努力。自动化问答系统可以帮助研究人员和政策制定者驾驭这一不断增长的法规体系。

核心问题

在AI治理领域，政策文件通常篇幅较长，法律术语密集，分布在多个司法管辖区，使得分析和比较变得困难。尽管AGORA等资源提供了结构化的AI政策文件集合，但从这些材料中提取见解仍需大量人工努力。自动化问答系统可以帮助研究人员和政策制定者驾驭这一不断增长的法规体系。然而，现有的问答系统在处理法律和监管文件时往往遇到困难，原因在于领域特定术语、概念模糊性和嵌套引用。此外，直接应用于政策语料库时，LLMs可能会生成流畅但不支持的主张。

核心创新

本文的核心创新在于提出了一种结合对比学习和偏好对齐的RAG管道，适用于政策分析任务。具体来说：

1）检索器通过对比学习进行微调，生成器则通过收集成对偏好数据进行对齐。这种方法能够更好地适应政策领域的特殊需求。

2）分析了检索指标的改进如何在某些情况下导致更自信的幻觉，特别是当相关文档缺失时。

3）提供了在动态监管语料库上设计问答系统的实用建议，帮助研究人员和开发者更好地应对政策文本的复杂性。

方法详解

本文提出了一种结合对比学习和偏好对齐的RAG管道，适用于政策分析任务。具体步骤如下：

�� 使用基于ColBERT的检索器进行检索。检索器通过对比学习进行微调，生成器则通过收集成对偏好数据进行对齐。

�� 使用AGORA语料库进行实验，评估检索性能、答案相关性和响应忠实性。

�� 在某些情况下，当语料库中缺少相关文档时，增强的检索反而导致更自信的幻觉。

�� 提供了在动态监管语料库上设计问答系统的实用建议，帮助研究人员和开发者更好地应对政策文本的复杂性。

实验设计

实验设计包括使用AGORA语料库进行检索增强生成的评估。具体来说，检索器通过对比学习进行微调，生成器则通过收集成对偏好数据进行对齐。实验评估了检索性能、答案相关性和响应忠实性。

实验使用了多种指标来评估检索性能，包括平均互惠排名（MRR）、Recall@k和MAP@k。生成器的对齐通过直接偏好优化（DPO）进行，使用成对偏好数据进行训练。

实验结果表明，尽管检索器微调改善了检索指标，但它并未一致地改善端到端问答性能。在某些情况下，当语料库中缺少相关文档时，增强的检索反而导致更自信的幻觉。

结果分析

具体来说，检索器的微调改善了检索指标，如平均互惠排名（MRR）提高到0.748，但在问答性能上未见显著提升。GPT-5.4基线模型在没有网络搜索的情况下，答案准确率显著高于RAG系统。

这些结果表明，对单个组件的改进不一定会转化为更可靠的答案。这对于需要在动态监管语料库上设计扎实问答系统的研究人员和开发者具有重要意义。

应用场景

本文提出的方法可以应用于多个政策分析场景，帮助研究人员和政策制定者更好地驾驭复杂的法规体系。具体来说：

1）自动化问答系统可以帮助研究人员和政策制定者驾驭不断增长的法规体系，减少人工分析的工作量。

2）在AI治理领域，系统可以用于分析和比较不同司法管辖区的政策文件，提供更全面的政策见解。

3）系统还可以用于其他领域的政策分析，如医疗、金融等，帮助研究人员和政策制定者更好地理解和应对复杂的政策文本。

局限与展望

尽管本文提出的方法在某些方面取得了进展，但仍存在一些局限性：

1）当语料库中缺少相关文档时，系统可能会生成自信但不准确的答案。

2）生成器在处理跨司法管辖区的政策时，可能会错误地引用不相关的文档。

3）偏好数据的收集受到领域专家可用性的限制，可能未能充分捕捉政策研究人员的期望。

未来研究可以探索更强的幻觉缓解策略、跨文档上下文的扎实性以及改进的文档状态变化处理。

通俗解读非专业人士也能看懂

想象一下你在一个巨大的图书馆里，这里有成千上万的书籍，每本书都涉及不同的法律和政策。你需要找到一本特定的书来回答一个关于AI政策的问题。这时候，你可以使用一个超级智能的图书管理员助手，它可以快速浏览所有的书籍，并找到最相关的章节来帮助你回答问题。

这个助手就是我们的RAG系统。它的工作原理是先从图书馆中找到最相关的书籍（这就是检索器的工作），然后从这些书籍中提取出最有用的信息来回答你的问题（这就是生成器的工作）。

然而，有时候图书馆里可能没有你需要的书籍，这时候助手可能会根据已有的信息做出一些猜测。这就像是助手在没有足够信息的情况下，试图给出一个最合理的答案。

我们的研究发现，即使助手在找到书籍方面变得更好，它也不一定能给出更准确的答案，特别是在图书馆缺少相关书籍的情况下。因此，我们需要不断改进助手的能力，让它在信息不足时也能给出更可靠的答案。

简单解释像给14岁少年讲一样

嘿，小伙伴们！今天我们要聊聊一个超级酷的东西，叫做RAG系统。想象一下，你在玩一个超大的寻宝游戏，地图上有无数个宝藏点，而你的任务就是找到最有价值的宝藏！

RAG系统就像是你的超级助手，它能帮你在地图上找到最接近宝藏的地方。首先，它会用一个叫做检索器的工具来扫描整个地图，找到那些可能藏有宝藏的地方。

接下来，它会用另一个叫做生成器的工具，从这些地方提取出最有用的信息，帮你找到真正的宝藏！

不过，有时候地图上可能没有标出所有的宝藏点，这时候助手可能会根据已有的信息猜测宝藏的位置。这就像是你在玩游戏时，虽然没有看到宝藏，但根据线索猜测它可能在哪里。

我们的研究发现，即使助手在找线索方面变得更厉害，它也不一定能找到所有的宝藏，特别是在地图上缺少一些重要线索的时候。所以，我们需要继续改进助手的能力，让它在信息不足时也能帮你找到更多的宝藏！

术语表

RAG (检索增强生成)

RAG是一种结合检索和生成的技术，用于在复杂文本中定位和生成答案。它通过检索相关文档来增强生成器的输出。

在本文中，RAG用于分析AI政策文件。

ColBERT (ColBERT)

ColBERT是一种基于BERT的检索模型，专注于高效的语义搜索。它通过对比学习来优化检索性能。

本文使用ColBERT作为检索器的基础。

DPO (直接偏好优化)

DPO是一种优化技术，用于对齐生成器的输出与人类偏好。通过成对偏好数据进行训练，提升生成器的输出质量。

本文中，DPO用于生成器的偏好对齐。

AGORA (AI治理和监管档案)

AGORA是一个结构化的AI政策文件集合，包含来自多个司法管辖区的法律、法规和政策指南。

本文使用AGORA语料库进行实验。

MRR (平均互惠排名)

MRR是一种评估检索系统性能的指标，表示检索结果中第一个相关文档的排名的倒数的平均值。

本文中用于评估检索器的性能。

Recall@k (召回率@k)

Recall@k是评估检索系统性能的指标，表示在前k个检索结果中找到的相关文档的比例。

本文中用于评估检索器的性能。

MAP@k (平均精度@k)

MAP@k是评估检索系统性能的指标，表示在前k个检索结果中的平均精度。

本文中用于评估检索器的性能。

幻觉 (Hallucination)

在生成模型中，幻觉指的是模型生成的内容与输入不一致或不支持的情况。

本文中讨论了增强检索可能导致的幻觉问题。

偏好对齐 (Preference Alignment)

偏好对齐是一种技术，通过优化生成器的输出，使其更符合人类的偏好和期望。

本文中使用DPO进行偏好对齐。

对比学习 (Contrastive Learning)

对比学习是一种机器学习技术，通过比较正负样本来提高模型的区分能力。

本文中用于检索器的微调。

开放问题这项研究留下的未解疑问

1 开放问题1：如何在缺乏相关文档的情况下提高RAG系统的答案准确性？现有方法在语料库不完整时表现不佳，需要开发更强的幻觉缓解策略。
2 开放问题2：如何更好地处理跨司法管辖区的政策文件？现有系统在处理不同司法管辖区的相似术语时容易出错，需要更精细的语义理解。
3 开放问题3：如何在动态变化的政策环境中保持系统的更新和准确性？现有系统在处理新政策时可能无法及时更新，需要更高效的更新机制。
4 开放问题4：如何改进生成器的偏好对齐，以更好地满足政策研究人员的期望？现有偏好数据的收集受到领域专家可用性的限制，需要更广泛的专家参与。
5 开放问题5：如何在不增加计算成本的情况下提高RAG系统的性能？现有系统在计算资源有限的情况下表现不佳，需要更高效的算法设计。

应用场景

近期应用

政策分析自动化

RAG系统可以帮助研究人员和政策制定者自动化分析复杂的政策文件，减少人工工作量，提高效率。

跨司法管辖区政策比较

系统可以用于分析和比较不同司法管辖区的政策文件，提供更全面的政策见解。

动态法规监测

系统可以用于实时监测政策变化，帮助政策制定者及时了解最新的法规动态。

远期愿景

全球政策协同

RAG系统可以促进全球政策的协同和统一，帮助各国政府更好地应对跨国界的政策挑战。

智能政策建议

未来，系统可以发展为智能政策建议工具，帮助政府制定更有效的政策，推动社会进步。

原文摘要

Retrieval-augmented generation (RAG) systems are increasingly used to analyze complex policy documents, but achieving sufficient reliability for expert usage remains challenging in domains characterized by dense legal language and evolving, overlapping regulatory frameworks. We study the application of RAG to AI governance and policy analysis using the AI Governance and Regulatory Archive (AGORA) corpus, a curated collection of 947 AI policy documents. Our system combines a ColBERT-based retriever fine-tuned with contrastive learning and a generator aligned to human preferences using Direct Preference Optimization (DPO). We construct synthetic queries and collect pairwise preferences to adapt the system to the policy domain. Through experiments evaluating retrieval quality, answer relevance, and faithfulness, we find that domain-specific fine-tuning improves retrieval metrics but does not consistently improve end-to-end question answering performance. In some cases, stronger retrieval counterintuitively leads to more confident hallucinations when relevant documents are absent from the corpus. These results highlight a key concern for those building policy-focused RAG systems: improvements to individual components do not necessarily translate to more reliable answers. Our findings provide practical insights for designing grounded question-answering systems over dynamic regulatory corpora.

cs.CL cs.AI cs.CY cs.IR cs.LG

参考文献 (20)

LoRA: Low-Rank Adaptation of Large Language Models

J. Hu, Yelong Shen, Phillip Wallis 等

2021 17465 引用 ⭐ 高影响力查看解读 →

A Question Answering Software for Assessing AI Policies of OECD Countries

Konstantinos Mavrogiorgos, Athanasios Kiourtis, Argyro Mavrogiorgou 等

2023 2 引用

Artificial intelligence policy frameworks in China, the European Union and the United States: An analysis based on structure topic model

Shangrui Wang, Yuanmeng Zhang, Yi-Po Xiao 等

2025 23 引用

What do governments plan in the field of artificial intelligence?: Analysing national AI strategies using NLP

T. Papadopoulos, Y. Charalabidis

2020 11 引用

Language (Technology) is Power: A Critical Survey of “Bias” in NLP

Su Lin Blodgett, Solon Barocas, Hal Daum'e 等

2020 1581 引用查看解读 →

PA-RAG: RAG Alignment via Multi-Perspective Preference Optimization

Jiayi Wu, Hengyi Cai, Lingyong Yan 等

2024 8 引用查看解读 →

Worldwide AI ethics: A review of 200 guidelines and recommendations for AI governance

N. Corrêa, Camila Galvão, J. Santos 等

2022 205 引用查看解读 →

Government by Algorithm: Artificial Intelligence in Federal Administrative Agencies

D. Engstrom, Daniel E. Ho, Catherine M. Sharkey 等

2020 189 引用

U.S. Public Opinion on the Governance of Artificial Intelligence

Baobao Zhang, Allan Dafoe

2019 79 引用查看解读 →

Language Models are Few-Shot Learners

Tom B. Brown, Benjamin Mann, Nick Ryder 等

2020 55753 引用查看解读 →

The use of AI in public services: results from a preliminary mapping across the EU

Gianluca Misuraca, C. V. Noordt, Anys Boukli

2020 85 引用

BLT: Can Large Language Models Handle Basic Legal Text?

Andrew Blair-Stanek, Nils Holzenberger, Benjamin Van Durme

2023 14 引用查看解读 →

JEC-QA: A Legal-Domain Question Answering Dataset

Haoxiang Zhong, Chaojun Xiao, Cunchao Tu 等

2019 203 引用查看解读 →

Methodological Details

Drew Dimmery, Edward Kennedy

7 引用

Do RAG Systems Really Suffer From Positional Bias?

Florin Cuconasu, Simone Filice, Guy Horowitz 等

2025 6 引用查看解读 →

Question Answering for Privacy Policies: Combining Computational and Legal Perspectives

Abhilasha Ravichander, A. Black, Shomir Wilson 等

2019 146 引用查看解读 →

Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

Patrick Lewis, Ethan Perez, Aleksandara Piktus 等

2020 12298 引用查看解读 →

On Synthetic Data Strategies for Domain-Specific Generative Retrieval

Haoyang Wen, Jiang Guo, Yi Zhang 等

2025 5 引用查看解读 →

Can GPT-3 Perform Statutory Reasoning?

Andrew Blair-Stanek, Nils Holzenberger, Benjamin Van Durme

2023 128 引用查看解读 →

ColBERTv2: Effective and Efficient Retrieval via Lightweight Late Interaction

Keshav Santhanam, O. Khattab, Jon Saad-Falcon 等

2021 645 引用查看解读 →

Retrieval Improvements Do Not Guarantee Better Answers: A Study of RAG for AI Policy QA

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

RAG (检索增强生成)

ColBERT (ColBERT)

DPO (直接偏好优化)

AGORA (AI治理和监管档案)

MRR (平均互惠排名)

Recall@k (召回率@k)

MAP@k (平均精度@k)

幻觉 (Hallucination)

偏好对齐 (Preference Alignment)

对比学习 (Contrastive Learning)

开放问题 这项研究留下的未解疑问

应用场景

近期应用

政策分析自动化

跨司法管辖区政策比较

动态法规监测

远期愿景

全球政策协同

智能政策建议

原文摘要

参考文献 (20)

相关论文

Sentiment and Emotion Classification of Indonesian E-Commerce Reviews via Multi-Task BiLSTM and AutoML Benchmarking

SeaEvo: Advancing Algorithm Discovery with Strategy Space Evolution

Improving Robustness of Tabular Retrieval via Representational Stability

Representational Harms in LLM-Generated Narratives Against Global Majority Nationalities

CRAFT: Clustered Regression for Adaptive Filtering of Training data

BERAG: Bayesian Ensemble Retrieval-Augmented Generation for Knowledge-based Visual Question Answering

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问