miniReranker: Efficient Multimodal Reranking through Visual Cache Reuse and Interaction Sparsity

TL;DR

miniReranker通过视觉缓存重用和交互稀疏技术,在多模态重排序中实现了<1%的运行时间,性能保持在96%以上。

cs.IR 🔴 高级 2026-06-09 72 次浏览
Yingqi Fan Xuan Lu Anhao Zhao Junlong Tong Ping Nie Kai Zou Yunpu Ma Wei Zhang Xiaoyu Shen
多模态大模型 重排序 效率优化 视觉缓存 交互稀疏

核心发现

方法论

本研究提出了miniReranker框架,结合vision-first输入重构、早期退出、交互带限制和视觉Token剪枝等多项技术。首先,采用视觉优先的提示格式,确保视觉信息的预缓存与模型预训练格式一致,最大化视觉表示的重用。其次,通过层级分析发现模型深层的冗余,利用早期退出技术在相关信号集中时提前终止推理,减少模型深度计算。再次,分析跨段注意力发现有效交互集中在中间层,设计交互带限制策略,将交互限制在特定层范围内,降低交互复杂度。最后,利用预先编码的视觉Token注意力权重进行引导剪枝,显著减少视觉Token数量。所有优化措施共同作用,显著降低重排序的计算成本,达到在高重用场景下运行时间不到1%,性能仍保持在96%以上。

关键结果

  • 在Qwen3-VL基础上,miniReranker在多模态重排序任务中实现了性能与密集模型相当(>96%),同时参数量降低至58%,训练加速近3倍。具体而言,在Top-100候选集上,重排序时间缩短超过99%,极大提升了系统效率。
  • 在78个任务(包括图像、视频、视觉文档)上,经过在MMEB-v2数据集的评估,miniReranker在保持高准确率的同时,显著减少了模型推理的深度和交互复杂度,验证了其在多模态场景中的广泛适用性。
  • 通过层级探测分析,发现模型在中间层即可获得接近最终层的重排序信号,验证了早期退出策略的有效性。同时,交互带限制策略在保持性能的同时,减少了交互层的计算量,视觉Token剪枝则在保持准确的前提下,减少了视觉输入的冗余信息。

研究意义

该研究突破了多模态大模型在点对点重排序中的计算瓶颈,为大规模多模态检索系统的实时应用提供了技术支撑。通过引入视觉优先的输入格式和多层次压缩策略,有效解决了传统模型在高重用场景中的重复计算问题,推动了多模态信息融合与推理的效率提升。这不仅提升了模型在实际场景中的部署能力,也为未来多模态大模型的结构设计提供了新思路,有望在内容检索、智能问答、视频理解等多个领域引领创新。

技术贡献

本研究的技术贡献主要体现在:一是提出视觉优先的prompt重构策略,优化输入格式以最大化视觉表示的重用;二是通过层级分析,发现模型深层冗余,设计早期退出机制,有效减少深度计算;三是引入交互带限制,缩小跨段注意力范围,降低交互复杂度;四是利用预训练的视觉Token注意力信息进行引导剪枝,显著减少视觉Token数量。这些创新结合了模型结构优化与推理过程压缩,为多模态大模型的高效应用提供了系统性解决方案。

新颖性

该工作首次系统性提出vision-first输入重构,打破传统query-first格式,充分利用模型预训练的视觉优先特性。同时,结合层级分析实现早期退出、交互带限制和视觉Token剪枝,形成多层次、多角度的压缩策略,显著提升多模态重排序的效率。这些技术在多模态检索领域尚属首次,突破了模型深度和交互复杂度的瓶颈,为大模型的高效部署开辟了新路径。

局限性

  • 尽管引入多项压缩策略,miniReranker在极端视觉输入场景下仍可能面临性能下降,特别是在视觉信息极为丰富或模态间关系复杂时,模型的压缩可能影响细粒度的理解能力。
  • 该方法依赖于预训练模型的视觉Token注意力信息,若预训练模型在特定任务或数据上表现不佳,剪枝效果可能受限,影响整体性能。
  • 在极大规模的多模态数据集上,模型的预缓存和剪枝策略可能面临存储和计算的挑战,未来需优化存储效率和动态剪枝机制。

未来方向

未来工作可以探索动态剪枝与自适应交互带策略,结合更智能的视觉Token重要性评估机制,提升模型在多样化场景下的鲁棒性。同时,结合多模态预训练模型的多任务能力,扩展miniReranker在视频理解、内容生成等更复杂任务中的应用潜力。此外,研究如何在边缘设备上实现高效推理,也是未来的重要方向。

AI 总览摘要

多模态大模型(MLLMs)近年来在内容理解和信息检索领域展现出巨大潜力,尤其是在多模态检索任务中,模型能够通过细粒度的跨模态交互实现更精准的相关性评估。然而,随着模型规模的不断扩大,计算成本也呈指数级增长,严重限制了其在实际应用中的部署效率。传统的点对点重排序方法,虽然在性能上具有优势,但在高重用场景下存在大量重复计算,导致系统响应时间和能耗难以接受。

为解决这一难题,Yingqi Fan等人提出了miniReranker框架,结合多项创新技术,显著提升了多模态重排序的效率。核心思想是采用vision-first的输入重构策略,将视觉信息放在前面,确保视觉表示的预缓存,从而最大化重用。通过层级分析,发现模型深层存在大量冗余,利用早期退出技术在相关信号集中时提前终止推理,减少不必要的深度计算。同时,研究发现有效的跨模态交互主要集中在中间层,设计交互带限制策略,将注意力范围缩小到必要的层级,降低交互复杂度。最后,利用预训练模型中的视觉Token注意力信息进行引导剪枝,有效减少视觉Token数量,降低输入序列长度。

这些技术的结合,使miniReranker在保持96%以上性能的同时,将重排序的运行时间缩短至原模型的不到1%,参数量降低至58%,训练速度提升近3倍。在多个任务和数据集上的评估验证了其优越的性能表现,特别是在大规模候选集的实时重排序中展现出极高的效率优势。这一突破为多模态信息检索系统的实际部署提供了坚实的技术基础,也为未来多模态模型的结构优化和推理效率提升提供了新思路。

尽管如此,miniReranker仍面临一些挑战,比如在极端视觉信息丰富的场景下可能出现性能下降,以及在超大规模数据集中的存储和计算压力。未来的研究将集中在动态剪枝、自适应交互策略和多任务预训练的结合上,旨在进一步提升模型的鲁棒性和应用范围。总体而言,这项工作标志着多模态大模型高效应用的一个重要里程碑,为多模态检索和理解的工业化落地提供了强有力的技术支撑。

深度解读

原文摘要

Multimodal large language models (MLLMs) have recently shown strong potential as point-wise rerankers by directly modeling query--document relevance through next-token prediction. However, point-wise reranking suffers from substantial repeated computation across query--document pairs, while the causal structure of transformers allows only prefix segments to be reused via pre-caching. To address the misalignment of existing query-first and document-first formats with both VQA-style prompting and computation-aware reuse, we propose a \textit{vision-first} formulation that improves both cache reuse efficiency and reranking performance. However, the remaining cost is still considerable and stems from three main sources: (1) \textit{model depth}, for which we reduce active parameters via early exit; (2) \textit{cross-segment attention}, which we restrict to a narrow interaction band across a few layers; and (3) \textit{visual tokens}, where we reduce the number of tokens via embedder-guided pruning. Together, these designs form miniReranker, which reduces reranking runtime to <1% of the dense implementation under high-reuse settings for a single query, while preserving >96% of the dense model performance.

cs.IR

参考文献 (20)

LamRA: Large Multimodal Model as Your Advanced Retrieval Assistant

Yikun Liu, Pingan Chen, Jiayin Cai 等

2024 95 引用 ⭐ 高影响力 查看解读 →

Qwen3-VL-Embedding and Qwen3-VL-Reranker: A Unified Framework for State-of-the-Art Multimodal Retrieval and Ranking

Mingxin Li, Yanzhao Zhang, Dingkun Long 等

2026 103 引用 ⭐ 高影响力 查看解读 →

VLM2Vec-V2: Advancing Multimodal Embedding for Videos, Images, and Visual Documents

Rui Meng, Ziyan Jiang, Ye Liu 等

2025 72 引用 ⭐ 高影响力 查看解读 →

MMBench: Is Your Multi-modal Model an All-around Player?

Yuanzhan Liu, Haodong Duan, Yuanhan Zhang 等

2023 2169 引用 查看解读 →

The Remarkable Robustness of LLMs: Stages of Inference?

Vedang Lad, Wes Gurnee, Max Tegmark

2024 131 引用 查看解读 →

VLM Is a Strong Reranker: Advancing Multimodal Retrieval-augmented Generation via Knowledge-enhanced Reranking and Noise-injected Training

Zhanpeng Chen, Chengjin Xu, Yiyan Qi 等

2025 7 引用

runer : Decoding Discontinuous Cross-Modal Dynamics for Efficient Multimodal LLMs

Yingqi Fan, Anhao Zhao, Jinlan Fu 等

1 引用

VISA: Group-wise Visual Token Selection and Aggregation via Graph Summarization for Efficient MLLMs Inference

Pengfei Jiang, Hanjun Li, Linglan Zhao 等

2025 7 引用 查看解读 →

PACT: Pruning and Clustering-Based Token Reduction for Faster Visual Language Models

M. Dhouib, Davide Buscaldi, Sonia Vanier 等

2025 41 引用 查看解读 →

Efficient Streaming Language Models with Attention Sinks

Guangxuan Xiao, Yuandong Tian, Beidi Chen 等

2023 1956 引用 查看解读 →

Learning to rank: from pairwise approach to listwise approach

Zhe Cao, Tao Qin, Tie-Yan Liu 等

2007 2393 引用

Direct Preference Optimization of Video Large Multimodal Models from Language Model Reward

Ruohong Zhang, Liangke Gui, Zhiqing Sun 等

2024 154 引用 查看解读 →

HyperRAG: Enhancing Quality-Efficiency Tradeoffs in Retrieval-Augmented Generation with Reranker KV-Cache Reuse

Yuwei An, Yihua Cheng, Seongmin Park 等

2025 10 引用 查看解读 →

Attention in Large Language Models Yields Efficient Zero-Shot Re-Rankers

Shijie Chen, Bernal Jiménez Gutiérrez, Yu Su

2024 42 引用 查看解读 →

Reranking with Compressed Document Representation

Herv'e D'ejean, S. Clinchant

2025 2 引用 查看解读 →

Towards VQA Models That Can Read

Amanpreet Singh, Vivek Natarajan, Meet Shah 等

2019 2077 引用 查看解读 →

Layer by Layer: Uncovering Hidden Representations in Language Models

Oscar Skean, Md Rifat Arefin, Dan Zhao 等

2025 261 引用 查看解读 →

GQA: A New Dataset for Real-World Visual Reasoning and Compositional Question Answering

Drew A. Hudson, Christopher D. Manning

2019 3141 引用

ViCA: Efficient Multimodal LLMs with Vision-Only Cross-Attention

Wenjie Liu, Hao Wu, Xin Qiu 等

2026 6 引用 查看解读 →

Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution

Peng Wang, Shuai Bai, Sinan Tan 等

2024 4254 引用 查看解读 →