Can QPP Choose the Right Query Variant? Evaluating Query Variant Selection for RAG Pipelines

TL;DR

研究通过QPP选择RAG管道中最佳查询变体，提升生成质量。

cs.IR 🔴 高级 2026-04-24 30 次浏览

Negar Arabzadeh Andrew Drozdov Michael Bendersky Matei Zaharia

查询性能预测查询变体选择检索增强生成大语言模型信息检索

核心发现

方法论

本研究探讨了查询性能预测（QPP）在选择检索增强生成（RAG）管道中最佳查询变体的应用。通过在TREC-RAG数据集上进行大规模实验，研究评估了稀疏和密集检索器下的预检索和后检索预测器的表现。研究采用了相关性和决策为基础的指标来评估这些预测器的有效性。

关键结果

在TREC-RAG数据集上，轻量级的预检索预测器在许多情况下能够匹配或优于更昂贵的后检索方法，显著减少了延迟，同时提高了生成质量。
研究发现，最大化排名指标（如nDCG）的变体往往无法产生最佳的生成答案，揭示了检索相关性与生成忠实度之间的“效用差距”。
QPP能够可靠地识别出比原始查询更能改善端到端质量的变体，尤其是在生成质量方面。

研究意义

该研究在学术界和工业界都具有重要意义。它揭示了在RAG管道中选择最佳查询变体的重要性，尤其是在生成质量和检索相关性之间存在效用差距的情况下。通过使用QPP，系统可以在不显著增加计算成本的情况下提高生成的答案质量，这对于需要高效处理大量查询的实际应用尤其重要。

技术贡献

技术贡献包括提出了一种新的QPP应用场景，即在RAG管道中选择最佳查询变体。这与传统的QPP方法不同，传统方法主要关注跨主题的查询难度估计，而本研究则关注同一信息需求下的变体选择。此外，研究还展示了预检索预测器在不增加计算复杂度的情况下如何有效地提高生成质量。

新颖性

本研究首次将QPP应用于RAG管道中的查询变体选择，提出了一种新的评估框架，能够在不增加计算成本的情况下显著提高生成质量。这与传统的QPP方法形成鲜明对比，后者主要关注检索效果的估计。

局限性

研究主要在TREC-RAG数据集上进行，可能在其他数据集上的表现不一致。
预检索预测器虽然在许多情况下表现良好，但在某些复杂查询上可能不如后检索方法。

未来方向

未来的研究方向包括在更多样化的数据集上验证该方法的有效性，以及探索如何进一步缩小检索相关性与生成忠实度之间的效用差距。此外，还可以研究如何结合多种QPP方法以提高变体选择的准确性。

AI 总览摘要

在现代信息检索系统中，检索增强生成（RAG）已成为一种主流架构。与传统的即席检索不同，RAG在检索和用户之间插入了一个大语言模型（LLM），将答案合成的任务委托给一个生成模型，该模型基于检索到的证据进行条件生成。然而，执行每个查询重构的完整管道是计算昂贵的，因此需要选择性执行：我们能否在产生下游检索和生成成本之前识别出最佳的查询变体？

本研究探讨了查询性能预测（QPP）作为变体选择机制在即席检索和端到端RAG中的应用。与传统的QPP不同，传统QPP估计跨主题的查询难度，而本研究则研究了同一信息需求下的变体选择。通过在TREC-RAG数据集上进行大规模实验，研究评估了稀疏和密集检索器下的预检索和后检索预测器的表现。

研究结果揭示了检索和生成目标之间的系统性差异：最大化排名指标（如nDCG）的变体往往无法产生最佳的生成答案，暴露了检索相关性与生成忠实度之间的“效用差距”。然而，QPP能够可靠地识别出比原始查询更能改善端到端质量的变体。值得注意的是，轻量级的预检索预测器在许多情况下能够匹配或优于更昂贵的后检索方法，提供了一种延迟高效的方法来实现稳健的RAG。

深度分析

研究背景

检索增强生成（RAG）近年来迅速成为现代信息系统的主流架构。传统的即席检索方法通常直接提供一个排名列表供用户消费，而RAG则在检索和用户之间插入了一个大语言模型（LLM），将答案合成的任务委托给一个生成模型，该模型基于检索到的证据进行条件生成。这种转变从根本上改变了搜索的目标和经济学。在这种环境下，查询重构的角色得到了显著的强调。用户的原始查询可能无法检索到足够支持生成的段落，从而加剧了词汇不匹配、意图漂移和不明确性的问题。基于LLM的查询重构已成为一种常见的做法，通过生成多个语义等价的查询变体来提高召回率和覆盖率。

核心问题

执行每个查询重构的完整管道是计算昂贵的，尤其是在生产环境中，这种详尽的执行通常是不可行的。因此，需要一种更高效的替代方案：我们能否在产生下游生成成本之前识别出最佳的查询变体？查询性能预测（QPP）提供了一种自然的机制来解决这个问题。传统上，QPP估计检索效果而无需相关性判断，并已用于选择性查询扩展、系统路由和风险敏感检索等任务。然而，其评估主要依赖于与排名指标（如nDCG或平均精度）的相关性。

核心创新

本研究首次将QPP应用于RAG管道中的查询变体选择，提出了一种新的评估框架，能够在不增加计算成本的情况下显著提高生成质量。这与传统的QPP方法形成鲜明对比，后者主要关注检索效果的估计。研究采用了相关性和决策为基础的指标来评估这些预测器的有效性，揭示了检索和生成目标之间的系统性差异：最大化排名指标（如nDCG）的变体往往无法产生最佳的生成答案，暴露了检索相关性与生成忠实度之间的“效用差距”。

方法详解

�� 在TREC-RAG数据集上进行大规模实验，评估稀疏和密集检索器下的预检索和后检索预测器的表现。

�� 使用相关性和决策为基础的指标来评估这些预测器的有效性。

�� 研究揭示了检索和生成目标之间的系统性差异，最大化排名指标（如nDCG）的变体往往无法产生最佳的生成答案。

�� 轻量级的预检索预测器在许多情况下能够匹配或优于更昂贵的后检索方法，提供了一种延迟高效的方法来实现稳健的RAG。

实验设计

实验在TREC-RAG 2024基准上进行，该基准专为评估RAG系统而设计，提供了检索和RAG任务的单独评估协议。基准由56个查询组成，这些查询是在MS MARCO v2.1语料库上构建的，包含超过1.38亿个段落。重要的是，这些查询在检索和生成维度上都经过了人类评估员和LLM评审员的仔细和彻底的判断，能够在不同的管道配置下进行公平的性能比较。研究特别利用了人类注释进行检索和基于块的评估。

结果分析

应用场景

局限与展望

研究主要在TREC-RAG数据集上进行，可能在其他数据集上的表现不一致。预检索预测器虽然在许多情况下表现良好，但在某些复杂查询上可能不如后检索方法。此外，研究揭示了检索和生成目标之间的系统性差异，最大化排名指标（如nDCG）的变体往往无法产生最佳的生成答案，暴露了检索相关性与生成忠实度之间的“效用差距”。

通俗解读非专业人士也能看懂

想象一下你在一个图书馆里，想要找到一本关于某个主题的最佳书籍。你可以向图书馆员询问，他们可能会给你一份书单，但这份书单可能并不完全符合你的需求。为了更好地帮助你，图书馆员决定使用一种新的方法：他们会先生成多个不同的书单，然后选择其中最适合你的需求的那一份。这就是研究中提到的“查询变体选择”的概念。通过生成多个“书单”（即查询变体），系统可以在不增加太多计算成本的情况下，找到最能满足你需求的答案。这种方法类似于图书馆员在给你推荐书籍之前，先筛选出最相关的书籍列表，以确保你得到的推荐是最符合你需求的。

简单解释像给14岁少年讲一样

想象一下你在玩一个游戏，你需要找到一条通往宝藏的最佳路径。你可以尝试每一条可能的路径，但这会花费很多时间和精力。于是，你决定使用一种聪明的方法：先生成多个可能的路径，然后选择其中最有可能通往宝藏的那一条。这就是研究中提到的“查询变体选择”的概念。通过生成多个“路径”（即查询变体），系统可以在不增加太多计算成本的情况下，找到最能满足你需求的答案。这种方法类似于你在游戏中选择最佳路径，以确保你能最快地找到宝藏。

术语表

查询性能预测 (Query Performance Prediction)

QPP是一种估计查询在检索任务中表现的方法，通常不依赖于相关性判断。

在本文中，QPP用于选择最佳的查询变体，以提高生成质量。

检索增强生成 (Retrieval-Augmented Generation)

RAG是一种信息检索架构，结合了检索和生成模型，以提供更高质量的答案。

本文探讨了如何在RAG管道中选择最佳查询变体。

大语言模型 (Large Language Model)

LLM是一种基于深度学习的模型，能够生成自然语言文本，广泛用于自然语言处理任务。

本文使用LLM生成查询变体，以提高检索和生成质量。

nDCG (归一化折损累积增益)

nDCG是一种用于评估信息检索系统性能的排名指标，考虑了结果的相关性和位置。

本文使用nDCG评估查询变体的检索效果。

TREC-RAG数据集

TREC-RAG是一个专为评估检索增强生成系统而设计的数据集，包含经过仔细评估的查询和段落。

本文在TREC-RAG数据集上进行实验，以验证方法的有效性。

稀疏检索器 (Sparse Retriever)

稀疏检索器是一种基于稀疏向量表示的检索方法，通常使用倒排索引实现。

本文评估了稀疏和密集检索器下的查询变体选择。

密集检索器 (Dense Retriever)

密集检索器是一种基于密集向量表示的检索方法，通常使用神经网络实现。

本文评估了稀疏和密集检索器下的查询变体选择。

效用差距 (Utility Gap)

效用差距指的是检索相关性与生成忠实度之间的差异，即高排名的文档不一定能提高生成质量。

本文揭示了检索和生成目标之间的效用差距。

预检索预测器 (Pre-retrieval Predictor)

预检索预测器是在检索之前估计查询效果的方法，通常基于查询的统计特征。

本文发现预检索预测器在许多情况下能够匹配或优于后检索方法。

后检索预测器 (Post-retrieval Predictor)

后检索预测器是在检索之后估计查询效果的方法，通常基于检索结果的统计特征。

本文比较了预检索和后检索预测器的表现。

开放问题这项研究留下的未解疑问

1 如何在更多样化的数据集上验证QPP在RAG管道中的有效性？目前的研究主要集中在TREC-RAG数据集上，其他数据集的表现尚不明确。
2 如何进一步缩小检索相关性与生成忠实度之间的效用差距？目前的研究揭示了这一差距，但尚未提供具体的解决方案。
3 如何结合多种QPP方法以提高变体选择的准确性？目前的研究主要集中在单一方法的评估，尚未探索多方法结合的潜力。
4 在复杂查询上，预检索预测器的表现如何？目前的研究表明，某些复杂查询上预检索方法可能不如后检索方法。
5 如何在不增加计算复杂度的情况下进一步提高生成质量？目前的研究已经展示了预检索预测器的潜力，但仍有改进空间。

应用场景

近期应用

搜索引擎优化

通过QPP选择最佳查询变体，提高搜索引擎的检索和生成质量，减少用户等待时间。

智能客服系统

在智能客服系统中应用QPP，选择最能回答用户问题的查询变体，提高用户满意度。

在线教育平台

在在线教育平台中使用QPP，选择最相关的学习资源，提高学习效果。

远期愿景

个性化信息检索

通过QPP实现个性化信息检索，提供更符合用户需求的答案，提升用户体验。

自动化内容生成

利用QPP提高自动化内容生成的质量，为内容创作提供更高效的工具。

原文摘要

Large Language Models (LLMs) have made query reformulation ubiquitous in modern retrieval and Retrieval-Augmented Generation (RAG) pipelines, enabling the generation of multiple semantically equivalent query variants. However, executing the full pipeline for every reformulation is computationally expensive, motivating selective execution: can we identify the best query variant before incurring downstream retrieval and generation costs? We investigate Query Performance Prediction (QPP) as a mechanism for variant selection across ad-hoc retrieval and end-to-end RAG. Unlike traditional QPP, which estimates query difficulty across topics, we study intra-topic discrimination - selecting the optimal reformulation among competing variants of the same information need. Through large-scale experiments on TREC-RAG using both sparse and dense retrievers, we evaluate pre- and post-retrieval predictors under correlation- and decision-based metrics. Our results reveal a systematic divergence between retrieval and generation objectives: variants that maximize ranking metrics such as nDCG often fail to produce the best generated answers, exposing a "utility gap" between retrieval relevance and generation fidelity. Nevertheless, QPP can reliably identify variants that improve end-to-end quality over the original query. Notably, lightweight pre-retrieval predictors frequently match or outperform more expensive post-retrieval methods, offering a latency-efficient approach to robust RAG.

cs.IR cs.CL

参考文献 (20)

GENeration

David St. John

2015 832 引用

Information Needs, Queries, and Query Performance Prediction

Oleg Zendel, Anna Shtok, Fiana Raiber 等

2019 52 引用

Query Performance Prediction: Techniques and Applications in Modern Information Retrieval

Negar Arabzadeh, Chuan Meng, Mohammad Aliannejadi 等

2024 9 引用

Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection

Akari Asai, Zeqiu Wu, Yizhong Wang 等

2023 1743 引用查看解读 →

Inferring Query Performance Using Pre-retrieval Predictors

Ben He, I. Ounis

2004 292 引用

GenQREnsemble: Zero-Shot LLM Ensemble Prompting for Generative Query Reformulation

Kaustubh D. Dhole, Eugene Agichtein

2024 30 引用查看解读 →

Breaking Flat: A Generalised Query Performance Prediction Evaluation Framework

Payel Santra, Partha Basuchowdhuri, Debasis Ganguly

2026 1 引用查看解读 →

Is Relevance Propagated from Retriever to Generator in RAG?

Fangzheng Tian, Debasis Ganguly, Craig Macdonald

2025 16 引用查看解读 →

Performance Prediction for Non-Factoid Question Answering

Helia Hashemi, Hamed Zamani, W. Bruce Croft

2019 53 引用

An Analysis of Variations in the Effectiveness of Query Performance Prediction

Debasis Ganguly, S. Datta, Mandar Mitra 等

2022 16 引用查看解读 →

Query Performance Prediction Using Neural Query Space Proximity

Amin Bigdeli, Sajad Ebrahimi, Negar Arabzadeh 等

2025 1 引用

METIS: Fast Quality-Aware RAG Systems with Configuration Adaptation

Siddhant Ray, Rui Pan, Zhuohan Gu 等

2024 10 引用查看解读 →

Noisy Perturbations for Estimating Query Difficulty in Dense Retrievers

Negar Arabzadeh, Radin Hamidi Rad, Maryam Khodabakhsh 等

2023 25 引用

Query Performance Prediction Through Retrieval Coherency

Negar Arabzadeh, Amin Bigdeli, Morteza Zihayat 等

2021 23 引用

Predicting Query Performance by Query-Drift Estimation

Anna Shtok, O. Kurland, David Carmel

2009 272 引用

Uncovering the Limitations of Query Performance Prediction: Failures, Insights, and Implications for Selective Query Processing

Adrian-Gabriel Chifu, S'ebastien D'ejean, Moncef Garouani 等

2025 1 引用查看解读 →

Unsupervised Question Clarity Prediction through Retrieved Item Coherency

Negar Arabzadeh, M. Seifikar, C. Clarke

2022 27 引用查看解读 →

Generative Query Reformulation for Effective Adhoc Search

Xiao Wang, Sean MacAvaney, Craig Macdonald 等

2023 35 引用查看解读 →

Standard Deviation as a Query Hardness Estimator

Joaquín Pérez-Iglesias, Lourdes Araujo

2010 64 引用

Ragnarök: A Reusable RAG Framework and Baselines for TREC 2024 Retrieval-Augmented Generation Track

Ronak Pradeep, Nandan Thakur, Sahel Sharifymoghaddam 等

2024 46 引用查看解读 →

Can QPP Choose the Right Query Variant? Evaluating Query Variant Selection for RAG Pipelines

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

查询性能预测 (Query Performance Prediction)

检索增强生成 (Retrieval-Augmented Generation)

大语言模型 (Large Language Model)

nDCG (归一化折损累积增益)

TREC-RAG数据集

稀疏检索器 (Sparse Retriever)

密集检索器 (Dense Retriever)

效用差距 (Utility Gap)

预检索预测器 (Pre-retrieval Predictor)

后检索预测器 (Post-retrieval Predictor)

开放问题 这项研究留下的未解疑问

应用场景

近期应用

搜索引擎优化

智能客服系统

在线教育平台

远期愿景

个性化信息检索

自动化内容生成

原文摘要

参考文献 (20)

相关论文

Aligning Dense Retrievers with LLM Utility via DistillationAligning Dense Retrievers with LLM Utility via Distillation

Objective Shaping with Hard Negatives: Windowed Partial AUC Optimization for RL-based LLM Recommenders

Rethinking Semantic Collaborative Integration: Why Alignment Is Not Enough

ResRank: Unifying Retrieval and Listwise Reranking via End-to-End Joint Training with Residual Passage Compression

ECLASS-Augmented Semantic Product Search for Electronic Components

Diagnosable ColBERT: Debugging Late-Interaction Retrieval Models Using a Learned Latent Space as Reference

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问