miniReranker: Efficient Multimodal Reranking through Visual Cache Reuse and Interaction Sparsity

TL;DR

miniReranker通过视觉缓存重用和交互稀疏技术，在多模态重排序中实现了<1%的运行时间，性能保持在96%以上。

cs.IR 🔴 高级 2026-06-09 72 次浏览

Yingqi Fan Xuan Lu Anhao Zhao Junlong Tong Ping Nie Kai Zou Yunpu Ma Wei Zhang Xiaoyu Shen

多模态大模型重排序效率优化视觉缓存交互稀疏

核心发现

方法论

本研究提出了miniReranker框架，结合vision-first输入重构、早期退出、交互带限制和视觉Token剪枝等多项技术。首先，采用视觉优先的提示格式，确保视觉信息的预缓存与模型预训练格式一致，最大化视觉表示的重用。其次，通过层级分析发现模型深层的冗余，利用早期退出技术在相关信号集中时提前终止推理，减少模型深度计算。再次，分析跨段注意力发现有效交互集中在中间层，设计交互带限制策略，将交互限制在特定层范围内，降低交互复杂度。最后，利用预先编码的视觉Token注意力权重进行引导剪枝，显著减少视觉Token数量。所有优化措施共同作用，显著降低重排序的计算成本，达到在高重用场景下运行时间不到1%，性能仍保持在96%以上。

关键结果

在Qwen3-VL基础上，miniReranker在多模态重排序任务中实现了性能与密集模型相当（>96%），同时参数量降低至58%，训练加速近3倍。具体而言，在Top-100候选集上，重排序时间缩短超过99%，极大提升了系统效率。
在78个任务（包括图像、视频、视觉文档）上，经过在MMEB-v2数据集的评估，miniReranker在保持高准确率的同时，显著减少了模型推理的深度和交互复杂度，验证了其在多模态场景中的广泛适用性。
通过层级探测分析，发现模型在中间层即可获得接近最终层的重排序信号，验证了早期退出策略的有效性。同时，交互带限制策略在保持性能的同时，减少了交互层的计算量，视觉Token剪枝则在保持准确的前提下，减少了视觉输入的冗余信息。

研究意义

该研究突破了多模态大模型在点对点重排序中的计算瓶颈，为大规模多模态检索系统的实时应用提供了技术支撑。通过引入视觉优先的输入格式和多层次压缩策略，有效解决了传统模型在高重用场景中的重复计算问题，推动了多模态信息融合与推理的效率提升。这不仅提升了模型在实际场景中的部署能力，也为未来多模态大模型的结构设计提供了新思路，有望在内容检索、智能问答、视频理解等多个领域引领创新。

技术贡献

本研究的技术贡献主要体现在：一是提出视觉优先的prompt重构策略，优化输入格式以最大化视觉表示的重用；二是通过层级分析，发现模型深层冗余，设计早期退出机制，有效减少深度计算；三是引入交互带限制，缩小跨段注意力范围，降低交互复杂度；四是利用预训练的视觉Token注意力信息进行引导剪枝，显著减少视觉Token数量。这些创新结合了模型结构优化与推理过程压缩，为多模态大模型的高效应用提供了系统性解决方案。

新颖性

该工作首次系统性提出vision-first输入重构，打破传统query-first格式，充分利用模型预训练的视觉优先特性。同时，结合层级分析实现早期退出、交互带限制和视觉Token剪枝，形成多层次、多角度的压缩策略，显著提升多模态重排序的效率。这些技术在多模态检索领域尚属首次，突破了模型深度和交互复杂度的瓶颈，为大模型的高效部署开辟了新路径。

局限性

尽管引入多项压缩策略，miniReranker在极端视觉输入场景下仍可能面临性能下降，特别是在视觉信息极为丰富或模态间关系复杂时，模型的压缩可能影响细粒度的理解能力。
该方法依赖于预训练模型的视觉Token注意力信息，若预训练模型在特定任务或数据上表现不佳，剪枝效果可能受限，影响整体性能。
在极大规模的多模态数据集上，模型的预缓存和剪枝策略可能面临存储和计算的挑战，未来需优化存储效率和动态剪枝机制。

未来方向

未来工作可以探索动态剪枝与自适应交互带策略，结合更智能的视觉Token重要性评估机制，提升模型在多样化场景下的鲁棒性。同时，结合多模态预训练模型的多任务能力，扩展miniReranker在视频理解、内容生成等更复杂任务中的应用潜力。此外，研究如何在边缘设备上实现高效推理，也是未来的重要方向。

AI 总览摘要

多模态大模型（MLLMs）近年来在内容理解和信息检索领域展现出巨大潜力，尤其是在多模态检索任务中，模型能够通过细粒度的跨模态交互实现更精准的相关性评估。然而，随着模型规模的不断扩大，计算成本也呈指数级增长，严重限制了其在实际应用中的部署效率。传统的点对点重排序方法，虽然在性能上具有优势，但在高重用场景下存在大量重复计算，导致系统响应时间和能耗难以接受。

为解决这一难题，Yingqi Fan等人提出了miniReranker框架，结合多项创新技术，显著提升了多模态重排序的效率。核心思想是采用vision-first的输入重构策略，将视觉信息放在前面，确保视觉表示的预缓存，从而最大化重用。通过层级分析，发现模型深层存在大量冗余，利用早期退出技术在相关信号集中时提前终止推理，减少不必要的深度计算。同时，研究发现有效的跨模态交互主要集中在中间层，设计交互带限制策略，将注意力范围缩小到必要的层级，降低交互复杂度。最后，利用预训练模型中的视觉Token注意力信息进行引导剪枝，有效减少视觉Token数量，降低输入序列长度。

这些技术的结合，使miniReranker在保持96%以上性能的同时，将重排序的运行时间缩短至原模型的不到1%，参数量降低至58%，训练速度提升近3倍。在多个任务和数据集上的评估验证了其优越的性能表现，特别是在大规模候选集的实时重排序中展现出极高的效率优势。这一突破为多模态信息检索系统的实际部署提供了坚实的技术基础，也为未来多模态模型的结构优化和推理效率提升提供了新思路。

尽管如此，miniReranker仍面临一些挑战，比如在极端视觉信息丰富的场景下可能出现性能下降，以及在超大规模数据集中的存储和计算压力。未来的研究将集中在动态剪枝、自适应交互策略和多任务预训练的结合上，旨在进一步提升模型的鲁棒性和应用范围。总体而言，这项工作标志着多模态大模型高效应用的一个重要里程碑，为多模态检索和理解的工业化落地提供了强有力的技术支撑。

深度解读

原文摘要

Multimodal large language models (MLLMs) have recently shown strong potential as point-wise rerankers by directly modeling query--document relevance through next-token prediction. However, point-wise reranking suffers from substantial repeated computation across query--document pairs, while the causal structure of transformers allows only prefix segments to be reused via pre-caching. To address the misalignment of existing query-first and document-first formats with both VQA-style prompting and computation-aware reuse, we propose a \textit{vision-first} formulation that improves both cache reuse efficiency and reranking performance. However, the remaining cost is still considerable and stems from three main sources: (1) \textit{model depth}, for which we reduce active parameters via early exit; (2) \textit{cross-segment attention}, which we restrict to a narrow interaction band across a few layers; and (3) \textit{visual tokens}, where we reduce the number of tokens via embedder-guided pruning. Together, these designs form miniReranker, which reduces reranking runtime to <1% of the dense implementation under high-reuse settings for a single query, while preserving >96% of the dense model performance.

cs.IR

参考文献 (20)

LamRA: Large Multimodal Model as Your Advanced Retrieval Assistant

Yikun Liu, Pingan Chen, Jiayin Cai 等

2024 95 引用 ⭐ 高影响力查看解读 →

Qwen3-VL-Embedding and Qwen3-VL-Reranker: A Unified Framework for State-of-the-Art Multimodal Retrieval and Ranking

Mingxin Li, Yanzhao Zhang, Dingkun Long 等

2026 103 引用 ⭐ 高影响力查看解读 →

VLM2Vec-V2: Advancing Multimodal Embedding for Videos, Images, and Visual Documents

Rui Meng, Ziyan Jiang, Ye Liu 等

2025 72 引用 ⭐ 高影响力查看解读 →

MMBench: Is Your Multi-modal Model an All-around Player?

Yuanzhan Liu, Haodong Duan, Yuanhan Zhang 等

2023 2169 引用查看解读 →

The Remarkable Robustness of LLMs: Stages of Inference?

Vedang Lad, Wes Gurnee, Max Tegmark

2024 131 引用查看解读 →

VLM Is a Strong Reranker: Advancing Multimodal Retrieval-augmented Generation via Knowledge-enhanced Reranking and Noise-injected Training

Zhanpeng Chen, Chengjin Xu, Yiyan Qi 等

2025 7 引用

runer : Decoding Discontinuous Cross-Modal Dynamics for Efficient Multimodal LLMs

Yingqi Fan, Anhao Zhao, Jinlan Fu 等

1 引用

VISA: Group-wise Visual Token Selection and Aggregation via Graph Summarization for Efficient MLLMs Inference

Pengfei Jiang, Hanjun Li, Linglan Zhao 等

2025 7 引用查看解读 →

PACT: Pruning and Clustering-Based Token Reduction for Faster Visual Language Models

M. Dhouib, Davide Buscaldi, Sonia Vanier 等

2025 41 引用查看解读 →

Efficient Streaming Language Models with Attention Sinks

Guangxuan Xiao, Yuandong Tian, Beidi Chen 等

2023 1956 引用查看解读 →

Learning to rank: from pairwise approach to listwise approach

Zhe Cao, Tao Qin, Tie-Yan Liu 等

2007 2393 引用

Direct Preference Optimization of Video Large Multimodal Models from Language Model Reward

Ruohong Zhang, Liangke Gui, Zhiqing Sun 等

2024 154 引用查看解读 →

HyperRAG: Enhancing Quality-Efficiency Tradeoffs in Retrieval-Augmented Generation with Reranker KV-Cache Reuse

Yuwei An, Yihua Cheng, Seongmin Park 等

2025 10 引用查看解读 →

Attention in Large Language Models Yields Efficient Zero-Shot Re-Rankers

Shijie Chen, Bernal Jiménez Gutiérrez, Yu Su

2024 42 引用查看解读 →

Reranking with Compressed Document Representation

Herv'e D'ejean, S. Clinchant

2025 2 引用查看解读 →

Towards VQA Models That Can Read

Amanpreet Singh, Vivek Natarajan, Meet Shah 等

2019 2077 引用查看解读 →

Layer by Layer: Uncovering Hidden Representations in Language Models

Oscar Skean, Md Rifat Arefin, Dan Zhao 等

2025 261 引用查看解读 →

GQA: A New Dataset for Real-World Visual Reasoning and Compositional Question Answering

Drew A. Hudson, Christopher D. Manning

2019 3141 引用

ViCA: Efficient Multimodal LLMs with Vision-Only Cross-Attention

Wenjie Liu, Hao Wu, Xin Qiu 等

2026 6 引用查看解读 →

Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution

Peng Wang, Shuai Bai, Sinan Tan 等

2024 4254 引用查看解读 →

miniReranker: Efficient Multimodal Reranking through Visual Cache Reuse and Interaction Sparsity

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度解读

原文摘要

参考文献 (20)

相关论文

ELVA: Exploring Ranking-Driven Universal Multimodal Retrieval

ScholarQuest: A Taxonomy-Guided Benchmark for Agentic Academic Paper Search in Open Literature Environments

Do Generative Recommenders Deepen the Information Cocoon? A Closed-Loop Simulation with LLM-powered User Simulators

A Theoretical Framework for Risk Analysis of Stochastic Rankers

CQC-RAG: Robust Retrieval-Augmented Generation via Cross-Query Consistency

SkillResolve-Bench: Measuring and Resolving Same-Capability Ambiguity in Agent Skill Retrieval