ResRank: Unifying Retrieval and Listwise Reranking via End-to-End Joint Training with Residual Passage Compression

TL;DR

ResRank通过残差段落压缩和端到端联合训练,提升信息检索的效率和效果。

cs.IR 🔴 高级 2026-04-24 32 次浏览
Xiaojie Ke Shuai Zhang Liansheng Sun Yongjin Wang Hengjun Jiang Xiangkun Liu Cunxin Gu Jian Xu Guanjun Jiang
信息检索 大语言模型 列表重排序 残差连接 压缩表示

核心发现

方法论

ResRank是一种统一的检索和列表重排序框架,利用残差段落压缩和端到端联合训练解决了长输入序列带来的效率和效果瓶颈。其核心在于将每个候选段落压缩为单个嵌入,并通过余弦相似度评分机制替代传统的自回归解码。通过双阶段、多任务的训练策略,ResRank同时优化编码器和重排序器,确保检索和重排序目标的一致性。

关键结果

  • ResRank在TREC Deep Learning和八个BEIR基准数据集上表现出色,与现有方法相比,ResRank在不生成任何标记的情况下实现了更高的排序效果。在BEIR数据集上,ResRank在单次通过模式下的平均nDCG@10超过了RankMistral、ListT5-3B和PE-Rank。
  • 在TREC Deep Learning 2019和2020基准上,ResRank在单次通过模式下的表现优于PE-Rank,并超过了大多数蒸馏训练的LLM重排序器。
  • 通过消融实验验证,残差连接、双阶段训练、端到端优化和多任务学习对最终性能的贡献是不可或缺的。

研究意义

ResRank的提出在信息检索领域具有重要意义。它不仅解决了长输入序列导致的效率瓶颈,还通过残差连接和余弦相似度评分机制提升了排序效果。这一方法的成功为工业应用中的实时信息检索提供了新的可能性,特别是在需要高效处理大量候选段落的场景中。此外,ResRank的端到端联合训练策略为检索和重排序目标的一致性提供了新的解决方案。

技术贡献

ResRank在技术上提供了多项创新贡献。首先,它通过残差段落压缩将每个候选段落压缩为单个嵌入,从而减少了输入长度。其次,采用余弦相似度评分机制,完全消除了自回归解码的瓶颈。最后,通过双阶段、多任务的端到端联合训练,ResRank实现了检索和重排序目标的一致性,显著降低了训练复杂性。

新颖性

ResRank的创新之处在于其将多模态大语言模型的压缩思想应用于文本检索和重排序领域。与以往方法相比,ResRank首次通过残差连接结构解决了压缩表示空间与排序空间的不匹配问题,并通过余弦相似度评分机制完全消除了生成瓶颈。

局限性

  • ResRank在处理极长文本时可能仍然存在信息丢失的问题,特别是在压缩阶段可能会忽略一些细节信息。
  • 虽然ResRank在多任务学习中表现出色,但其训练过程仍然需要大量计算资源,可能不适合资源有限的环境。
  • 在某些特定领域或数据集上,ResRank的表现可能不如专门针对该领域优化的模型。

未来方向

未来的研究方向可以包括进一步优化ResRank的压缩算法,以减少信息丢失。此外,可以探索如何在资源有限的环境中高效训练ResRank。另一个方向是将ResRank应用于更多的领域和数据集,以验证其通用性和适应性。

AI 总览摘要

在信息检索领域,如何高效地从大量候选段落中找到最相关的内容一直是一个挑战。传统的大语言模型(LLM)虽然在效果上表现优异,但其对长输入序列的处理效率低下,尤其是在工业应用中难以部署。

ResRank的提出为这一问题提供了新的解决方案。通过将每个候选段落压缩为单个嵌入,并采用余弦相似度评分机制,ResRank在保持高效的同时,显著提升了排序效果。其端到端的联合训练策略确保了检索和重排序目标的一致性。

在技术上,ResRank通过残差段落压缩和余弦相似度评分机制,完全消除了传统自回归解码的瓶颈。这一创新不仅提升了排序效率,还为实时信息检索提供了新的可能性。

实验结果显示,ResRank在TREC Deep Learning和BEIR基准数据集上表现出色,超越了许多现有方法,尤其是在不生成任何标记的情况下实现了更高的排序效果。

然而,ResRank在处理极长文本时仍可能存在信息丢失的问题,未来的研究可以进一步优化其压缩算法。此外,如何在资源有限的环境中高效训练ResRank也是一个值得探索的方向。

总的来说,ResRank为信息检索领域带来了新的视角,其创新的技术和显著的效果为未来的研究和应用提供了广阔的空间。

深度分析

研究背景

信息检索系统通常采用多阶段流水线,其中轻量级的第一阶段检索器快速从大型语料库中召回候选段落,随后更复杂的重排序器对排序顺序进行细化。随着大语言模型的出现,重排序阶段取得了显著进展:基于LLM的列表重排序器能够接受查询和多个候选段落,并直接输出一个排序,显著优于传统的交叉编码器方法。然而,这种方法在大规模部署时面临两个基本挑战:首先,连接几十或上百个候选段落的全文会产生极长的输入序列,导致“中间丢失”现象,直接影响排序质量。其次,即使输入长度可控,自回归解码过程仍会增加显著的开销,尤其是在排序长候选列表时。

核心问题

传统的大语言模型在处理长输入序列时存在显著的效率瓶颈。随着输入长度的增加,模型的推理延迟呈超线性增长,这使得其在工业应用中的部署变得不切实际。此外,长输入序列还会导致“中间丢失”现象,即信息在长上下文中被不成比例地忽略,直接影响排序质量。尽管滑动窗口策略可以部分缓解这一问题,但其多次推理的开销与窗口数量成正比,仍然难以满足实时应用的需求。

核心创新

ResRank的核心创新在于:

1. 残差段落压缩:受多模态LLM的启发,ResRank使用编码器-LLM将每个候选段落压缩为单个嵌入,并通过残差连接将编码器嵌入与重排序器的上下文隐藏状态结合,减少学习难度并保留段落级信息。

2. 余弦相似度评分:采用检索启发的评分机制,消除了自回归解码的瓶颈,通过余弦相似度计算直接比较全局聚合嵌入与每个段落的融合表示。

3. 双阶段、多任务、端到端联合训练:通过精心设计的训练策略,同时训练编码器和重排序器,实现检索和重排序目标的一致性,显著降低训练复杂性。

方法详解

ResRank的方法详解如下:

  • �� 段落压缩:每个候选段落由编码器-LLM压缩为单个嵌入,减少输入长度。
  • �� 残差连接:将编码器嵌入与重排序器的上下文隐藏状态结合,形成融合段落嵌入,保留段落级信息。
  • �� 余弦相似度评分:通过余弦相似度计算全局聚合嵌入与每个段落的融合表示,消除自回归解码。
  • �� 双阶段训练:第一阶段进行粗粒度对齐,第二阶段进行细粒度优化,确保编码器的检索能力在整个训练过程中得到保留。

实验设计

实验设计包括在TREC Deep Learning 2019和2020测试集以及八个BEIR基准数据集上进行评估。所有模型对BM25检索的前100个段落进行重排序,采用nDCG@10作为主要评估指标。训练数据分为两个阶段:第一阶段使用232,419个样本进行训练,第二阶段使用约87,000个高质量样本进行细化。基线模型包括多种重排序模型,涵盖了监督训练模型、无监督LLM模型和蒸馏训练的LLM模型。

结果分析

实验结果显示,ResRank在BEIR数据集上的单次通过模式下的平均nDCG@10超过了RankMistral、ListT5-3B和PE-Rank,尤其是在Signal和News数据集上表现最佳。在TREC Deep Learning 2019和2020基准上,ResRank在单次通过模式下的表现优于PE-Rank,并超过了大多数蒸馏训练的LLM重排序器。消融实验验证了残差连接、双阶段训练、端到端优化和多任务学习对最终性能的不可或缺性。

应用场景

ResRank的应用场景包括:

  • �� 实时信息检索:在需要高效处理大量候选段落的场景中,ResRank可以显著提升排序效率和效果。
  • �� 工业搜索引擎:通过减少输入长度和消除自回归解码,ResRank为工业应用中的实时信息检索提供了新的可能性。
  • �� 自然语言处理任务:ResRank的压缩算法和评分机制可以应用于其他需要高效处理长文本的自然语言处理任务。

局限与展望

ResRank在处理极长文本时可能仍然存在信息丢失的问题,特别是在压缩阶段可能会忽略一些细节信息。此外,虽然ResRank在多任务学习中表现出色,但其训练过程仍然需要大量计算资源,可能不适合资源有限的环境。在某些特定领域或数据集上,ResRank的表现可能不如专门针对该领域优化的模型。未来的研究可以进一步优化ResRank的压缩算法,以减少信息丢失,并探索如何在资源有限的环境中高效训练ResRank。

通俗解读 非专业人士也能看懂

想象一下你在一个巨大的图书馆里,想要找到一本最适合你当前需求的书。传统的方法是把所有可能的书都拿出来,然后一本一本地快速浏览,看看哪本最符合你的需求。这就像大语言模型在处理长输入序列时的方式:它们需要处理大量的信息,可能会错过一些重要的细节。

ResRank就像是一个聪明的图书馆员,他能快速浏览每本书的封面和简介,然后用一种特殊的方法把每本书的精华提炼出来,形成一个简洁的总结。这样,当你需要找到最合适的书时,你只需要看这些总结就可以了。

更妙的是,这个图书馆员还会根据你的具体需求,结合这些总结,用一种非常高效的方法来决定哪本书最适合你。这就像ResRank的余弦相似度评分机制,它完全消除了传统方法中逐一生成书名的繁琐过程。

通过这种方式,ResRank不仅能更快地找到最合适的书,还能确保你不会错过任何重要的信息。它为信息检索提供了一种全新的高效解决方案。

简单解释 像给14岁少年讲一样

嘿,小伙伴!想象一下你在玩一个超级复杂的游戏,你需要从一堆道具中挑选出最适合打败大Boss的那一个。传统的方法就像是把所有道具都拿出来,然后一个一个试,看看哪个最好用。这就像大语言模型在处理长输入时的方式:它们需要处理很多信息,可能会漏掉一些重要的细节。

但ResRank就像是一个超级聪明的助手,它能快速扫描每个道具的属性,然后用一种特别的方法把每个道具的精华提炼出来,形成一个简洁的总结。这样,当你需要挑选道具时,你只需要看这些总结就可以了。

更酷的是,这个助手还会根据你的具体需求,结合这些总结,用一种非常高效的方法来决定哪个道具最适合你。这就像ResRank的评分机制,它完全消除了传统方法中逐一生成道具名的繁琐过程。

通过这种方式,ResRank不仅能更快地找到最合适的道具,还能确保你不会错过任何重要的信息。它为信息检索提供了一种全新的高效解决方案。

术语表

ResRank (残差排序)

ResRank是一种统一的检索和列表重排序框架,通过残差段落压缩和端到端联合训练提升信息检索的效率和效果。

ResRank在论文中被用作解决长输入序列带来的效率和效果瓶颈的核心方法。

Encoder-LLM (编码器-大语言模型)

编码器-LLM是一种用于将候选段落压缩为单个嵌入的模型,减少输入长度。

在ResRank中,Encoder-LLM用于压缩每个候选段落,形成单个嵌入。

Residual Connection (残差连接)

残差连接是一种结合编码器嵌入与重排序器上下文隐藏状态的方法,保留段落级信息并减少学习难度。

在ResRank中,残差连接用于解决压缩表示空间与排序空间的不匹配问题。

Cosine Similarity (余弦相似度)

余弦相似度是一种用于计算两个向量之间相似度的度量,范围在-1到1之间。

在ResRank中,余弦相似度用于评分机制,替代传统的自回归解码。

End-to-End Training (端到端训练)

端到端训练是一种同时优化多个模型组件的训练策略,确保各组件目标的一致性。

ResRank通过端到端训练同时优化编码器和重排序器。

nDCG@10

nDCG@10是一种用于评估信息检索系统排序效果的指标,考虑了结果的相关性和排序位置。

在ResRank的实验中,nDCG@10被用作主要评估指标。

TREC Deep Learning

TREC Deep Learning是一个用于评估信息检索系统的基准数据集,包含2019和2020年的测试集。

ResRank在TREC Deep Learning基准上进行了实验评估。

BEIR Benchmark

BEIR Benchmark是一个包含多个领域数据集的基准,用于评估信息检索系统的泛化能力。

ResRank在八个BEIR基准数据集上进行了实验评估。

BM25

BM25是一种常用的基于概率模型的信息检索算法,用于计算文档与查询之间的相关性。

在ResRank的实验中,BM25用于检索前100个候选段落。

Sliding Window Strategy (滑动窗口策略)

滑动窗口策略是一种处理长输入序列的方法,通过分段处理来减少每次输入的长度。

在传统LLM中,滑动窗口策略用于缓解长输入序列带来的效率瓶颈。

开放问题 这项研究留下的未解疑问

  • 1 如何进一步优化ResRank的压缩算法以减少信息丢失?目前的压缩方法可能在处理极长文本时忽略一些细节信息,未来的研究可以探索更高效的压缩策略。
  • 2 在资源有限的环境中,如何高效训练ResRank?虽然ResRank在多任务学习中表现出色,但其训练过程仍然需要大量计算资源。
  • 3 如何将ResRank应用于更多的领域和数据集?目前的实验主要集中在TREC Deep Learning和BEIR基准数据集,未来可以探索其在其他领域的适应性。
  • 4 在某些特定领域或数据集上,ResRank的表现可能不如专门针对该领域优化的模型,如何针对这些领域进行优化?
  • 5 如何进一步提升ResRank的排序效果?虽然ResRank在现有基准上表现出色,但仍有提升空间,特别是在处理复杂查询时。

应用场景

近期应用

实时信息检索

ResRank可以在需要高效处理大量候选段落的场景中显著提升排序效率和效果,适用于搜索引擎和推荐系统。

工业搜索引擎

通过减少输入长度和消除自回归解码,ResRank为工业应用中的实时信息检索提供了新的可能性。

自然语言处理任务

ResRank的压缩算法和评分机制可以应用于其他需要高效处理长文本的自然语言处理任务,如文本摘要和问答系统。

远期愿景

跨领域信息检索

ResRank的通用性和适应性使其有潜力在更多领域中应用,推动跨领域信息检索的发展。

智能搜索助手

未来,ResRank可以发展为智能搜索助手,结合用户需求和上下文信息,提供个性化的搜索结果。

原文摘要

Large language model (LLM) based listwise reranking has emerged as the dominant paradigm for achieving state-of-the-art ranking effectiveness in information retrieval. However, its reliance on feeding full passage texts into the LLM introduces two critical bottlenecks: the "lost in the middle" phenomenon degrades ranking quality as input length grows, and the inference latency scales super-linearly with sequence length, rendering it impractical for industrial deployment. In this paper, we present ResRank, a unified retrieval-reranking framework that fundamentally addresses both challenges. Inspired by multimodal LLMs that project visual inputs into compact token representations, ResRank employs an Encoder-LLM to compress each candidate passage into a single embedding, which is then fed alongside the query text into a Reranker-LLM for listwise ranking. To alleviate the misalignment between the compressed representation space and the ranking space, we introduce a residual connection structure that combines encoder embeddings with contextualized hidden states from the reranker. Furthermore, we replace the conventional autoregressive decoding with a one-step cosine-similarity-based scoring mechanism, eliminating the generation bottleneck entirely. ResRank is trained through a carefully designed dual-stage, multi-task, end-to-end joint optimization strategy that simultaneously trains the encoder and reranker, achieving learning objective alignment between retrieval and reranking while substantially reducing training complexity. Extensive experiments on TREC Deep Learning and eight BEIR benchmark datasets demonstrate that ResRank achieves competitive or superior ranking effectiveness compared to existing approaches while requiring zero generated tokens and processing only one token per passage, yielding a fundamentally better balance between effectiveness and efficiency.

cs.IR cs.AI

参考文献 (20)

E2Rank: Your Text Embedding can Also be an Effective and Efficient Listwise Reranker

Qi Liu, Yanzhao Zhang, Mingxin Li 等

2025 4 引用 ⭐ 高影响力 查看解读 →

Leveraging Passage Embeddings for Efficient Listwise Reranking with Large Language Models

Qi Liu, Bo Wang, Nan Wang 等

2024 26 引用 ⭐ 高影响力 查看解读 →

Is ChatGPT Good at Search? Investigating Large Language Models as Re-Ranking Agent

Weiwei Sun, Lingyong Yan, Xinyu Ma 等

2023 489 引用 ⭐ 高影响力 查看解读 →

HLLM: Enhancing Sequential Recommendations via Hierarchical Large Language Models for Item and User Modeling

Junyi Chen, Lu Chi, Bingyue Peng 等

2024 103 引用 ⭐ 高影响力 查看解读 →

Visual Instruction Tuning

Haotian Liu, Chunyuan Li, Qingyang Wu 等

2023 9067 引用 ⭐ 高影响力 查看解读 →

DeepSpeed: System Optimizations Enable Training Deep Learning Models with Over 100 Billion Parameters

Jeff Rasley, Samyam Rajbhandari, Olatunji Ruwase 等

2020 1990 引用

Learning to rank using gradient descent

C. Burges, T. Shaked, Erin Renshaw 等

2005 3157 引用

BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information Retrieval Models

Nandan Thakur, Nils Reimers, Andreas Ruckl'e 等

2021 1598 引用 查看解读 →

FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness

Tri Dao, Daniel Y. Fu, Stefano Ermon 等

2022 4092 引用 查看解读 →

Optimizing Generative Ranking Relevance via Reinforcement Learning in Xiaohongshu Search

Ziyang Zeng, Heming Jing, Jindong Chen 等

2025 5 引用 查看解读 →

Reciprocal rank fusion outperforms condorcet and individual rank learning methods

G. Cormack, C. Clarke, Stefan Büttcher

2009 867 引用

OneRec: Unifying Retrieve and Rank with Generative Recommender and Iterative Preference Alignment

Jiaxin Deng, Shiyao Wang, Kuo Cai 等

2025 181 引用 查看解读 →

DiffuRank: Effective Document Reranking with Diffusion Language Models

Qi Liu, Kun Ai, Jiaxin Mao 等

2026 1 引用 查看解读 →

RankVicuna: Zero-Shot Listwise Document Reranking with Open-Source Large Language Models

Ronak Pradeep, Sahel Sharifymoghaddam, Jimmy Lin

2023 77 引用 查看解读 →

Qwen3 Technical Report

An Yang, Anfeng Li, Baosong Yang 等

2025 4486 引用 查看解读 →

Large Search Model: Redefining Search Stack in the Era of LLMs

Liang Wang, Nan Yang, Xiaolong Huang 等

2023 31 引用 查看解读 →

Document Ranking with a Pretrained Sequence-to-Sequence Model

Rodrigo Nogueira, Zhiying Jiang, Ronak Pradeep 等

2020 756 引用 查看解读 →

CompLLM: Compression for Long Context Q&A

G. Berton, Jayakrishnan Unnikrishnan, Son Tran 等

2025 2 引用 查看解读 →

Large Language Models for Information Retrieval: A Survey

Yutao Zhu, Huaying Yuan, Shuting Wang 等

2023 537 引用 查看解读 →

Multi-Stage Document Ranking with BERT

Rodrigo Nogueira, Wei Yang, Kyunghyun Cho 等

2019 481 引用 查看解读 →