Aligning Dense Retrievers with LLM Utility via DistillationAligning Dense Retrievers with LLM Utility via Distillation
通过蒸馏对齐密集检索器与LLM效用,UAE在QASPER基准上提升Recall@1达30.59%。
核心发现
方法论
本文提出了一种名为Utility-Aligned Embeddings (UAE)的框架,通过将生成效用直接蒸馏到双编码器的嵌入空间中,避免了昂贵的测试时LLM推理。UAE将检索问题形式化为分布匹配问题,使用Utility-Modulated InfoNCE目标训练双编码器,以模仿由困惑度减少导出的效用分布。这种方法在嵌入空间中直接注入分级效用信号,无需在测试时进行LLM推理。
关键结果
- 在QASPER基准上,UAE在Recall@1上提升了30.59%,在MAP上提升了30.16%,在Token F1上提升了17.3%,相较于强语义基线BGE-Base。
- UAE比高效的LLM重排序方法快180倍,同时保持了竞争力的性能,证明了将检索与生成效用对齐可以在大规模上提供可靠的上下文。
- 通过实验,UAE在NewsQA数据集上的Recall@1达到了54.90,超过了计算昂贵的RankGPT (49.68),表明与生成效用对齐的嵌入可以在单次检索步骤中实现重排序级别的精度。
研究意义
UAE框架通过将生成效用直接蒸馏到双编码器的嵌入空间中,显著减少了语义干扰并提高了生成质量,同时比基于LLM的重排序方法快180倍。UAE不仅保持了标准ANN兼容性,还为多阶段管道提供了高质量的基础,提供了一种实用且可扩展的效用驱动RAG系统解决方案。这项研究在学术界和工业界具有重要影响,因为它解决了长期存在的语义相似性与生成效用之间的差距问题。
技术贡献
UAE通过将生成效用直接蒸馏到双编码器的嵌入空间中,避免了昂贵的测试时LLM推理,从而实现了高效的密集检索。这种方法通过分布匹配问题形式化检索,使用Utility-Modulated InfoNCE目标训练双编码器,以模仿由困惑度减少导出的效用分布。这一技术贡献在于提供了一种新的理论保证和工程可能性,使得在大规模数据集上进行高效且高性能的检索成为可能。
新颖性
UAE是第一个通过分布匹配将生成效用直接蒸馏到双编码器嵌入空间的方法,与现有的依赖于语义相似性或昂贵的LLM重排序的方法相比,提供了根本性的创新。UAE通过避免测试时的LLM推理,显著提高了检索效率,并在大规模数据集上实现了高性能。
局限性
- UAE在处理非常长的上下文时可能会遇到困难,因为长上下文可能会引入更多的语义干扰,从而影响生成质量。
- 由于UAE依赖于预训练的生成模型,其性能可能会受到生成模型质量的限制。
- 在某些特定领域或任务中,UAE可能需要进行额外的微调以达到最佳性能。
未来方向
未来的研究方向包括探索UAE在不同领域和任务中的应用,进一步提高其在长上下文中的性能,以及研究如何在不影响效率的情况下增强UAE的生成质量。此外,研究如何结合其他先进的检索技术,以进一步提高UAE的性能和适用性,也是一个值得探索的方向。
AI 总览摘要
密集向量检索是检索增强生成(RAG)系统的实际基础,但相似性搜索可能会受到精度限制。相反,利用LLM重排序的效用驱动方法通常能获得更好的性能,但计算量大且易受困惑度估计中固有噪声的影响。我们提出了Utility-Aligned Embeddings (UAE),一个旨在将这些优势合并为一种实用的高性能检索方法的框架。我们将检索形式化为分布匹配问题,使用Utility-Modulated InfoNCE目标训练双编码器,以模仿由困惑度减少导出的效用分布。这种方法在嵌入空间中直接注入分级效用信号,无需在测试时进行LLM推理。
在QASPER基准上,UAE在Recall@1上提升了30.59%,在MAP上提升了30.16%,在Token F1上提升了17.3%,相较于强语义基线BGE-Base。UAE比高效的LLM重排序方法快180倍,同时保持了竞争力的性能,证明了将检索与生成效用对齐可以在大规模上提供可靠的上下文。
UAE通过将生成效用直接蒸馏到双编码器的嵌入空间中,显著减少了语义干扰并提高了生成质量,同时比基于LLM的重排序方法快180倍。UAE不仅保持了标准ANN兼容性,还为多阶段管道提供了高质量的基础,提供了一种实用且可扩展的效用驱动RAG系统解决方案。这项研究在学术界和工业界具有重要影响,因为它解决了长期存在的语义相似性与生成效用之间的差距问题。
UAE通过将生成效用直接蒸馏到双编码器的嵌入空间中,避免了昂贵的测试时LLM推理,从而实现了高效的密集检索。这种方法通过分布匹配问题形式化检索,使用Utility-Modulated InfoNCE目标训练双编码器,以模仿由困惑度减少导出的效用分布。这一技术贡献在于提供了一种新的理论保证和工程可能性,使得在大规模数据集上进行高效且高性能的检索成为可能。
未来的研究方向包括探索UAE在不同领域和任务中的应用,进一步提高其在长上下文中的性能,以及研究如何在不影响效率的情况下增强UAE的生成质量。此外,研究如何结合其他先进的检索技术,以进一步提高UAE的性能和适用性,也是一个值得探索的方向。
深度分析
研究背景
在信息检索领域,密集向量检索已经成为检索增强生成(RAG)系统的基石。这些系统通过将查询和候选项映射到共享的表示空间,利用高效的近似最近邻(ANN)搜索来处理大规模数据集,具有低延迟的特点。然而,随着技术的发展,这种范式因其依赖于语义相似性作为生成效用的代理而受到越来越多的批评。研究表明,高语义相似度的段落(主题重叠)往往无法提供关键的答案信息,甚至可能引入误导生成器的语义干扰,尤其是在长上下文设置中,错误但相似的段落会增加解码的不确定性。为了弥补这一差距,当前最先进的方法转向效用驱动的检索,其中相关性由文档如何有效帮助大型语言模型(LLM)生成正确响应来定义。在实践中,这通常通过困惑度减少来衡量:如果文档作为上下文的存在使得真实答案更可预测,则认为该文档是有用的。
核心问题
尽管效用驱动的方法在概念上是合理的,但在实际应用中面临着显著的挑战。依赖于LLM进行查询生成或事后重排序在大规模部署中计算量巨大。此外,由困惑度导出的效用信号因其噪声大和随机性高而臭名昭著,容易受到标记级别变化和解码动态的影响,使其难以用作稳定的训练目标。这需要复杂的多阶段架构来提高性能,但代价是极高的推理延迟和计算开销。因此,如何在不增加计算负担的情况下提高检索的生成效用成为一个亟待解决的问题。
核心创新
UAE框架的核心创新在于将生成效用直接蒸馏到双编码器的嵌入空间中,从而避免了昂贵的测试时LLM推理。具体来说:
- �� UAE通过将检索问题形式化为分布匹配问题,使用Utility-Modulated InfoNCE目标训练双编码器,以模仿由困惑度减少导出的效用分布。这种方法在嵌入空间中直接注入分级效用信号,无需在测试时进行LLM推理。
- �� UAE通过在训练过程中使用参数化的奖励模型来稳定噪声大的效用信号,并通过监督分布匹配来对齐密集检索器与该模型。这种方法通过保持标准ANN兼容性,提供了一种实用且可扩展的效用驱动RAG系统解决方案。
- �� UAE在QASPER基准上显著提升了检索性能,同时比高效的LLM重排序方法快180倍,证明了将检索与生成效用对齐可以在大规模上提供可靠的上下文。
方法详解
UAE的实现包括以下几个关键步骤:
- �� 参数化效用近似:通过困惑度估计上下文文档的效用,并将其蒸馏到参数化的奖励模型中,以稳定噪声大的效用信号。
- �� 奖励引导的嵌入训练:使用奖励模型作为离线教师,将效用偏好蒸馏到密集双编码器中,保持ANN搜索效率。
- �� 分布匹配目标:定义教师分布和学生分布,通过最小化KL散度对检索器进行优化,重塑嵌入空间以反映生成器的偏好。
- �� 效用感知的困难负样本挖掘:采用噪声对比估计(NCE)范式,通过结合黄金上下文和信息丰富的负样本来近似全局分布,确保检索器专注于解决语义干扰。
实验设计
实验设计包括在两个不同的RAG基准上进行评估:QASPER(长文档科学QA)和NewsQA(短文档新闻提取)。我们采用困难负样本设置,其中每个查询的候选池(50个)通过密集检索(BGE-Base)和奖励模型效用构建。这种设置通过语义干扰严格测试模型优先考虑真实生成效用的能力。生成协议使用Llama-3-8B-Instruct作为固定生成器,采用贪婪解码(温度=0)以确保可重复性。数据集特定的系统提示将生成器的输出与真实格式对齐:NewsQA的提取短语和QASPER的基于证据的摘要。性能通过Token F1和ROUGE-L进行量化,以评估信息准确性和结构流畅性。
结果分析
在QASPER基准上,UAE在Recall@1上提升了30.59%,在MAP上提升了30.16%,在Token F1上提升了17.3%,相较于强语义基线BGE-Base。UAE比高效的LLM重排序方法快180倍,同时保持了竞争力的性能,证明了将检索与生成效用对齐可以在大规模上提供可靠的上下文。通过实验,UAE在NewsQA数据集上的Recall@1达到了54.90,超过了计算昂贵的RankGPT (49.68),表明与生成效用对齐的嵌入可以在单次检索步骤中实现重排序级别的精度。这一优势也延伸到ExpUtil@1(前1个上下文的平均效用)。在NewsQA上,UAE (5.818)超过了BGE-Base (4.738),甚至超过了计算昂贵的RankGPT (4.968),确认UAE优先选择最大限度有助于生成的上下文,而不仅仅是语义相关性。
应用场景
UAE的直接应用场景包括:
- �� 在大规模信息检索系统中,UAE可以用作高效的第一阶段检索器,提供高质量的候选上下文供后续处理。
- �� 在需要快速响应的实时应用中,UAE的低延迟特性使其成为理想选择,特别是在用户体验至关重要的场景中。
- �� 在需要处理长上下文的复杂任务中,UAE可以通过减少语义干扰来提高生成质量,适用于科学文献分析和长文档问答等领域。
局限与展望
UAE在处理非常长的上下文时可能会遇到困难,因为长上下文可能会引入更多的语义干扰,从而影响生成质量。此外,由于UAE依赖于预训练的生成模型,其性能可能会受到生成模型质量的限制。在某些特定领域或任务中,UAE可能需要进行额外的微调以达到最佳性能。未来的研究方向包括探索UAE在不同领域和任务中的应用,进一步提高其在长上下文中的性能,以及研究如何在不影响效率的情况下增强UAE的生成质量。此外,研究如何结合其他先进的检索技术,以进一步提高UAE的性能和适用性,也是一个值得探索的方向。
通俗解读 非专业人士也能看懂
想象一下你在图书馆里找书。传统的方法是通过书名或作者来找书,这就像是通过语义相似性来检索信息。你可能找到了一本书,它的书名和你要找的很像,但内容却不是你需要的。UAE就像是图书馆里的一个聪明助手,它不仅看书名,还能快速浏览书的内容,判断这本书是否真的对你有用。这样,即使书名不完全匹配,它也能找到最适合你需求的书。UAE通过一种叫做效用对齐的技术,确保它推荐的书不仅相关,而且能真正帮助你解决问题。这个过程就像是助手在背后快速分析每本书的价值,然后给你最好的建议。UAE的快速和准确让你在图书馆里节省了大量时间,不再被无关的书籍干扰。
简单解释 像给14岁少年讲一样
嘿,小伙伴!想象一下你在玩一个超级复杂的游戏,你需要找到一些隐藏的线索才能过关。传统的方法是根据线索的颜色或形状来找,但这可能会让你找到一些看起来很像但没用的东西。UAE就像是游戏里的一个超级助手,它不仅看线索的外表,还能快速分析线索的内容,判断它是否真的能帮你过关。这样,即使线索看起来不太一样,它也能找到最适合你的。UAE通过一种叫做效用对齐的技术,确保它推荐的线索不仅相关,而且能真正帮助你赢得游戏。这就像是助手在背后快速分析每个线索的价值,然后给你最好的建议。UAE的快速和准确让你在游戏中节省了大量时间,不再被无关的线索干扰。是不是很酷?
术语表
Utility-Aligned Embeddings (效用对齐嵌入)
一种将生成效用直接蒸馏到双编码器嵌入空间的方法,避免昂贵的测试时LLM推理。
在本文中,UAE用于提高检索效率和生成质量。
Retrieval-Augmented Generation (RAG)
一种结合信息检索和生成模型的方法,用于提高生成任务的性能。
RAG系统依赖于密集向量检索来提供高质量的上下文。
Approximate Nearest Neighbor (ANN)
一种高效的搜索算法,用于在大规模数据集中快速找到最近邻居。
ANN用于处理大规模数据集中的密集向量检索。
Utility-Modulated InfoNCE
一种训练目标,通过模仿由困惑度减少导出的效用分布来优化双编码器。
该目标用于将生成效用信号注入嵌入空间。
Perplexity (困惑度)
一种衡量语言模型不确定性的指标,数值越低表示模型越自信。
困惑度用于估计上下文文档的效用。
Distribution Matching (分布匹配)
一种优化策略,通过最小化两个分布之间的差异来对齐模型输出。
UAE将检索问题形式化为分布匹配问题。
Kullback-Leibler Divergence (KL散度)
一种衡量两个概率分布之间差异的指标。
KL散度用于优化检索器的分布匹配目标。
Noise Contrastive Estimation (NCE)
一种用于近似全局分布的技术,通过结合正样本和负样本来进行估计。
NCE用于效用感知的困难负样本挖掘。
Transformer-based Encoding Model (基于Transformer的编码模型)
一种使用Transformer架构进行编码的模型,通常用于自然语言处理任务。
奖励模型使用基于Transformer的编码模型来捕捉效用。
Low-Rank Adaptation (LoRA)
一种参数高效的微调技术,用于大规模语言模型的适应性调整。
LoRA用于UAE的参数高效微调。
开放问题 这项研究留下的未解疑问
- 1 如何在不增加计算负担的情况下进一步提高UAE在长上下文中的性能?当前的方法在处理长上下文时可能会引入更多的语义干扰,从而影响生成质量。需要探索新的技术来减少这种干扰,同时保持高效的检索性能。
- 2 如何在不同领域和任务中应用UAE?虽然UAE在QASPER和NewsQA上表现出色,但在其他领域和任务中的适用性尚未得到充分验证。需要进行更多的实验来评估其在不同场景下的性能。
- 3 如何结合其他先进的检索技术以进一步提高UAE的性能和适用性?UAE已经展示了其在效用驱动检索中的潜力,但结合其他技术可能会带来更大的性能提升。
- 4 如何在不影响效率的情况下增强UAE的生成质量?虽然UAE通过效用对齐提高了生成质量,但在某些情况下可能仍然存在不足。需要探索新的方法来进一步优化生成效果。
- 5 UAE在处理非常长的上下文时可能会遇到困难,因为长上下文可能会引入更多的语义干扰,从而影响生成质量。需要探索新的技术来减少这种干扰,同时保持高效的检索性能。
应用场景
近期应用
大规模信息检索系统
UAE可以用作高效的第一阶段检索器,提供高质量的候选上下文供后续处理,适用于需要快速响应的实时应用。
科学文献分析
在处理长文档的科学文献分析中,UAE可以通过减少语义干扰来提高生成质量,帮助研究人员快速找到相关信息。
长文档问答系统
UAE在长文档问答系统中表现出色,可以提供高质量的上下文,帮助生成模型生成准确的答案。
远期愿景
跨领域应用
UAE的效用对齐技术有潜力在多个领域中应用,包括法律、医学和金融等需要高效信息检索的行业。
智能助手
UAE可以作为智能助手的核心技术,帮助用户快速找到相关信息,提高工作效率。
原文摘要
Dense vector retrieval is the practical backbone of Retrieval- Augmented Generation (RAG), but similarity search can suffer from precision limitations. Conversely, utility-based approaches leveraging LLM re-ranking often achieve superior performance but are computationally prohibitive and prone to noise inherent in perplexity estimation. We propose Utility-Aligned Embeddings (UAE), a framework designed to merge these advantages into a practical, high-performance retrieval method. We formulate retrieval as a distribution matching problem, training a bi-encoder to imitate a utility distribution derived from perplexity reduction using a Utility-Modulated InfoNCE objective. This approach injects graded utility signals directly into the embedding space without requiring test-time LLM inference. On the QASPER benchmark, UAE improves retrieval Recall@1 by 30.59%, MAP by 30.16% and Token F1 by 17.3% over the strong semantic baseline BGE-Base. Crucially, UAE is over 180x faster than the efficient LLM re-ranking methods preserving competitive performance, demonstrating that aligning retrieval with generative utility yields reliable contexts at scale.
参考文献 (19)
C-Pack: Packed Resources For General Chinese Embeddings
Shitao Xiao, Zheng Liu, Peitian Zhang 等
A Dataset of Information-Seeking Questions and Answers Anchored in Research Papers
Pradeep Dasigi, Kyle Lo, Iz Beltagy 等
ROUGE: A Package for Automatic Evaluation of Summaries
Chin-Yew Lin
Bridging the Preference Gap between Retrievers and LLMs
Zixuan Ke, Weize Kong, Cheng Li 等
SQuAD: 100,000+ Questions for Machine Comprehension of Text
Pranav Rajpurkar, Jian Zhang, Konstantin Lopyrev 等
SePer: Measure Retrieval Utility Through The Lens Of Semantic Perplexity Reduction
Lu Dai, Yijie Xu, Jinhui Ye 等
SPLADE-v3: New baselines for SPLADE
Carlos Lassance, Herv'e D'ejean, Thibault Formal 等
NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models
Chankyu Lee, Rajarshi Roy, Mengyao Xu 等
Dense Passage Retrieval for Open-Domain Question Answering
Vladimir Karpukhin, Barlas Oğuz, Sewon Min 等
Is Relevance Propagated from Retriever to Generator in RAG?
Fangzheng Tian, Debasis Ganguly, Craig Macdonald
The Power of Noise: Redefining Retrieval for RAG Systems
Florin Cuconasu, Giovanni Trappolini, F. Siciliano 等
M3-Embedding: Multi-Linguality, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation
Jianlv Chen, Shitao Xiao, Peitian Zhang 等
GainRAG: Preference Alignment in Retrieval-Augmented Generation through Gain Signal Synthesis
Yi Jiang, Sendong Zhao, Jianbo Li 等
Making Retrieval-Augmented Language Models Robust to Irrelevant Context
Ori Yoran, Tomer Wolfson, Ori Ram 等
Robust Loss Functions under Label Noise for Deep Neural Networks
Aritra Ghosh, Himanshu Kumar, P. Sastry
HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering
Zhilin Yang, Peng Qi, Saizheng Zhang 等
Response time in man-computer conversational transactions
Robert B. Miller
DeBERTa: Decoding-enhanced BERT with Disentangled Attention
Pengcheng He, Xiaodong Liu, Jianfeng Gao 等
Sequence-Level Training for Non-Autoregressive Neural Machine Translation
Chenze Shao, Yang Feng, Jinchao Zhang 等