NanoVDR: Distilling a 2B Vision-Language Retriever into a 70M Text-Only Encoder for Visual Document Retrieval

TL;DR

NanoVDR通过蒸馏2B视觉语言检索器为视觉文档检索提供了一个70M的文本编码器,保留了95.1%的教师质量。

cs.IR 🔴 高级 2026-03-13 3 次浏览
Zhuchenyang Liu Yao Zhang Yu Xiao
视觉文档检索 知识蒸馏 跨模态 多语言增强 高效编码

核心发现

方法论

NanoVDR采用了非对称的知识蒸馏框架,将一个冻结的2B视觉语言模型(VLM)教师模型蒸馏为一个仅有69M参数的文本学生模型。该方法通过点对点余弦对齐来训练学生模型,使其在教师的视觉空间中准确表示查询。整个过程无需在训练期间处理文档图像,仅需预缓存的教师查询嵌入。此外,通过增加机器翻译的查询数据,解决了跨语言传输的性能瓶颈。

关键结果

  • NanoVDR-S-Multi(DistilBERT, 69M)在ViDoRe v2和v3上分别保留了95.1%的教师质量,且在参数数量上比DSE-Qwen2(2B)减少了32倍,CPU查询延迟降低了50倍。
  • 在22个ViDoRe基准数据集上,NanoVDR的点对点余弦对齐方法在查询文本上始终优于基于排名和对比的替代方案。
  • 通过多语言增强,NanoVDR-S-Multi在多语言查询上提高了性能,尤其是在葡萄牙语查询上,NDCG@5提高了9.3个百分点。

研究意义

NanoVDR的研究在视觉文档检索领域具有重要意义。它通过将复杂的视觉文档与简单的文本查询分离,显著降低了计算成本和延迟。这种方法不仅在学术界提供了一个高效的解决方案,还为工业界的实际应用提供了可能性,尤其是在需要快速响应的场景中。此外,通过多语言增强,NanoVDR展示了其在全球化应用中的潜力。

技术贡献

NanoVDR的技术贡献在于其创新的非对称蒸馏框架。与现有的多向量VLM方法相比,NanoVDR通过单向量余弦相似性检索实现了更高的效率和存储节省。此外,NanoVDR通过纯文本学生模型实现了跨模态蒸馏,消除了对视觉模块的需求,并通过多语言增强解决了跨语言传输的瓶颈。

新颖性

NanoVDR首次通过非对称蒸馏框架将视觉文档检索中的视觉和文本处理路径分离开来。这种方法与传统的对称VLM方法相比,显著提高了效率,并通过点对点余弦对齐实现了更高的精度。与最相关的工作相比,NanoVDR在不需要视觉模块的情况下实现了跨模态蒸馏。

局限性

  • NanoVDR的性能上限由教师模型的文档嵌入质量决定,因此学生模型无法超越教师模型的表现。
  • 虽然NanoVDR在文本查询上表现出色,但在处理复杂的视觉内容时仍然依赖于教师模型的高质量嵌入。
  • 该研究未探索减少离线索引成本的方法,仍需完整的2B VLM教师模型来编码每个文档图像。

未来方向

未来的研究方向包括探索如何减少离线索引的计算成本,例如通过教师模型压缩或渐进式索引。此外,NanoVDR的框架是否能推广到其他检索设置也是一个值得探索的问题。研究人员还可以进一步优化多语言增强策略,以提高在更多语言上的性能。

AI 总览摘要

视觉文档检索(VDR)在从视觉丰富的文档中提取信息方面取得了显著的效果。然而,现有的最先进系统通常依赖于大型的视觉语言模型(VLM),这些模型在查询时间需要高计算开销,尤其是对于纯文本查询。NanoVDR通过非对称蒸馏框架解决了这一问题,将复杂的视觉文档与简单的文本查询分离开来。

NanoVDR的核心在于其创新的蒸馏方法。一个冻结的2B VLM教师模型用于离线索引文档,而一个轻量级的文本学生模型则用于在线编码查询。通过点对点余弦对齐,NanoVDR在不需要处理文档图像的情况下实现了高效的查询编码。这种方法显著降低了计算成本和延迟,使得NanoVDR能够在CPU上以约50毫秒的速度运行。

在实验中,NanoVDR在22个ViDoRe基准数据集上表现出色。NanoVDR-S-Multi(DistilBERT, 69M)在保留95.1%教师质量的同时,参数数量比DSE-Qwen2(2B)减少了32倍,CPU查询延迟降低了50倍。此外,通过多语言增强,NanoVDR在多语言查询上提高了性能,尤其是在葡萄牙语查询上,NDCG@5提高了9.3个百分点。

NanoVDR的研究在学术界和工业界都具有重要意义。它不仅提供了一个高效的解决方案,还为需要快速响应的实际应用提供了可能性。通过多语言增强,NanoVDR展示了其在全球化应用中的潜力,尤其是在多语言环境中。

然而,NanoVDR也有其局限性。其性能上限由教师模型的文档嵌入质量决定,因此学生模型无法超越教师模型的表现。此外,该研究未探索减少离线索引成本的方法,仍需完整的2B VLM教师模型来编码每个文档图像。未来的研究方向包括探索如何减少离线索引的计算成本,以及NanoVDR框架是否能推广到其他检索设置。

深度分析

研究背景

视觉文档检索(VDR)近年来在从视觉丰富的文档中提取信息方面取得了显著进展。传统的基于光学字符识别(OCR)的文本提取方法在处理复杂的文档结构时往往效率低下,而视觉语言模型(VLM)通过将文档页面视为图像进行编码,显著提高了检索质量。代表性的工作包括ColPali和DSE等,这些方法通过多向量嵌入实现了高精度的文档检索。然而,这些系统通常需要大型的VLM模型进行查询和文档编码,导致查询时间的高计算开销和GPU依赖,尤其是在处理纯文本查询时。

核心问题

现有的VLM方法在处理视觉文档检索时存在对称设计的问题,即使用相同的多亿参数编码器进行文档索引和查询编码。这种设计导致了高计算延迟和GPU依赖,即使对于简单的纯文本查询也是如此。此外,跨语言传输也是一个主要的性能瓶颈,尤其是在多语言环境中。

核心创新

NanoVDR通过非对称蒸馏框架解决了上述问题。其核心创新包括:

1. 非对称编码路径:将复杂的视觉文档与简单的文本查询分离开来,利用冻结的2B VLM教师模型进行离线文档索引,而轻量级的文本学生模型用于在线查询编码。

2. 点对点余弦对齐:通过这种方法训练学生模型,使其在教师的视觉空间中准确表示查询,显著提高了效率。

3. 多语言增强:通过增加机器翻译的查询数据,解决了跨语言传输的性能瓶颈,尤其是在多语言环境中。

方法详解

NanoVDR的方法论包括以下关键步骤:

  • �� 冻结的VLM教师模型用于离线索引文档,生成单向量视觉嵌入。
  • �� 轻量级文本学生模型通过点对点余弦对齐进行训练,使其在教师的视觉空间中准确表示查询。
  • �� 通过多语言增强,增加机器翻译的查询数据,解决跨语言传输的性能瓶颈。
  • �� 在训练期间,仅需预缓存的教师查询嵌入,无需处理文档图像。

实验设计

NanoVDR的实验设计包括在22个ViDoRe基准数据集上进行评估,涵盖了多种文档类型和语言。基线模型包括ColPali和DSE等多向量和单向量VLM方法。主要评估指标为NDCG@5,此外还进行了消融研究以验证不同蒸馏目标的效果。关键超参数包括学生模型的容量和多语言增强的数据量。

结果分析

实验结果表明,NanoVDR在22个ViDoRe基准数据集上表现出色。NanoVDR-S-Multi(DistilBERT, 69M)在保留95.1%教师质量的同时,参数数量比DSE-Qwen2(2B)减少了32倍,CPU查询延迟降低了50倍。此外,通过多语言增强,NanoVDR在多语言查询上提高了性能,尤其是在葡萄牙语查询上,NDCG@5提高了9.3个百分点。消融研究表明,点对点余弦对齐在查询文本上始终优于基于排名和对比的替代方案。

应用场景

NanoVDR的应用场景包括需要快速响应的视觉文档检索任务,如金融报告、科学论文和工业手册的检索。其高效的查询编码和低延迟使其适用于资源受限的环境,如移动设备和边缘计算。此外,通过多语言增强,NanoVDR在多语言环境中也具有广泛的应用潜力。

局限与展望

NanoVDR的局限性包括其性能上限由教师模型的文档嵌入质量决定,因此学生模型无法超越教师模型的表现。此外,该研究未探索减少离线索引成本的方法,仍需完整的2B VLM教师模型来编码每个文档图像。未来的研究方向包括探索如何减少离线索引的计算成本,以及NanoVDR框架是否能推广到其他检索设置。

通俗解读 非专业人士也能看懂

想象一下你在一个巨大的图书馆里寻找一本书。这个图书馆里有各种各样的书籍,有些书的封面很复杂,有些书的封面很简单。传统的方法就像是需要你每次都要仔细阅读每本书的封面,才能找到你想要的书。而NanoVDR的方法则更像是图书馆里有一个超级智能的助手,他已经提前把所有书的封面信息都记在了脑子里。当你告诉他你想要找哪本书时,他只需要几秒钟就能告诉你书在哪里,因为他只需要记住书的名字,而不需要每次都去看书的封面。这个助手不仅聪明,还会说多种语言,所以即使你用不同的语言告诉他书名,他也能快速找到。这就是NanoVDR在视觉文档检索中的作用:通过提前索引复杂的视觉信息,只需处理简单的文本查询,就能快速找到所需的文档。

简单解释 像给14岁少年讲一样

嘿,小伙伴们!你有没有想过,当你在网上搜索信息时,电脑是怎么知道你想要找什么的?这就像你在一个超级大的图书馆里找书。传统的方法就像是你每次都要翻开每本书的封面,才能找到你想要的书。但这太慢了,对吧?NanoVDR就像是一个超级聪明的图书馆助手,他已经提前把所有书的信息都记在了脑子里。当你告诉他你想要找哪本书时,他只需要几秒钟就能告诉你书在哪里!而且,他还会说多种语言,所以即使你用不同的语言告诉他书名,他也能快速找到。这就是NanoVDR的厉害之处!它让我们在网上找信息变得又快又准。

术语表

视觉文档检索 (Visual Document Retrieval)

一种从视觉丰富的文档中提取信息的方法,通常使用视觉语言模型来编码文档页面和查询。

在论文中用于描述NanoVDR的应用场景。

知识蒸馏 (Knowledge Distillation)

一种将大型模型的知识转移到小型模型的方法,通常用于减少模型的计算开销。

NanoVDR通过知识蒸馏将2B VLM教师模型转移到69M文本学生模型。

跨模态 (Cross-modal)

涉及不同模态(如视觉和文本)之间的相互作用或转换。

NanoVDR通过跨模态蒸馏实现了视觉和文本处理路径的分离。

多语言增强 (Multilingual Augmentation)

通过增加多语言数据来提高模型在不同语言上的性能的方法。

NanoVDR通过多语言增强解决了跨语言传输的性能瓶颈。

点对点余弦对齐 (Pointwise Cosine Alignment)

一种训练方法,通过最小化学生模型和教师模型之间的余弦距离来实现嵌入对齐。

NanoVDR使用点对点余弦对齐来训练文本学生模型。

视觉语言模型 (Vision-Language Model)

一种同时处理视觉和文本信息的模型,通常用于视觉文档检索等任务。

NanoVDR使用冻结的2B VLM教师模型进行离线文档索引。

单向量嵌入 (Single-vector Embedding)

一种将文档或查询编码为单一向量的表示方法,通常用于提高检索效率。

NanoVDR通过单向量嵌入实现了高效的查询编码。

NDCG@5

一种评估信息检索系统准确性的指标,考虑了结果的相关性和排名顺序。

在论文中用于评估NanoVDR在不同数据集上的性能。

GPU依赖 (GPU Dependence)

指需要使用图形处理单元(GPU)进行计算的情况,通常用于处理大型模型。

传统的VLM方法在查询时间需要高计算开销和GPU依赖。

消融研究 (Ablation Study)

一种通过移除或替换模型的某些部分来评估其对整体性能影响的方法。

NanoVDR通过消融研究验证了不同蒸馏目标的效果。

开放问题 这项研究留下的未解疑问

  • 1 如何进一步减少离线索引的计算成本?目前,NanoVDR仍需完整的2B VLM教师模型来编码每个文档图像,这可能会限制其在资源受限环境中的应用。
  • 2 NanoVDR框架是否能推广到其他检索设置?虽然在视觉文档检索中表现出色,但其在其他领域的适用性尚未得到验证。
  • 3 在多语言环境中,如何进一步优化多语言增强策略?虽然NanoVDR通过多语言增强提高了性能,但在某些语言上的表现仍有提升空间。
  • 4 如何在不影响性能的情况下进一步减少学生模型的参数数量?当前的NanoVDR-S-Multi已经非常高效,但仍有可能进一步优化。
  • 5 在处理复杂的视觉内容时,如何提高学生模型的表现?虽然NanoVDR在文本查询上表现出色,但在处理复杂的视觉内容时仍然依赖于教师模型的高质量嵌入。

应用场景

近期应用

金融报告检索

NanoVDR可以用于快速检索金融报告中的关键信息,尤其是在需要快速响应的场景中。

科学论文检索

通过高效的查询编码,NanoVDR能够在科学研究中快速找到相关的文献资料。

工业手册检索

在工业环境中,NanoVDR可以帮助工程师快速找到需要的技术文档和操作手册。

远期愿景

全球化信息检索

通过多语言增强,NanoVDR有潜力在全球化的信息检索中发挥重要作用,尤其是在多语言环境中。

资源受限环境中的应用

NanoVDR的高效性使其适用于移动设备和边缘计算等资源受限的环境,未来可能会在这些领域得到广泛应用。

原文摘要

Vision-Language Model (VLM) based retrievers have advanced visual document retrieval (VDR) to impressive quality. They require the same multi-billion parameter encoder for both document indexing and query encoding, incurring high latency and GPU dependence even for plain-text queries. We observe that this design is unnecessarily symmetric: documents are visually complex and demand strong visual understanding, whereas queries are just short text strings. NanoVDR exploits this query--document asymmetry by decoupling the two encoding paths: a frozen 2B VLM teacher indexes documents offline, while a distilled text-only student as small as 69M parameters encodes queries at inference. The key design choice is the distillation objective. Through systematic comparison of six objectives across three backbones and 22 ViDoRe benchmark datasets, we find that pointwise cosine alignment on query text consistently outperforms ranking-based and contrastive alternatives, while requiring only pre-cached teacher query embeddings and no document processing during training. Furthermore, we identify cross-lingual transfer as the primary performance bottleneck, and resolve it cheaply by augmenting training data with machine-translated queries. The resulting NanoVDR-S-Multi (DistilBERT, 69M) retains 95.1\% of teacher quality and outperforms DSE-Qwen2 (2B) on v2 and v3 with 32$\times$ fewer parameters and 50$\times$ lower CPU query latency, at a total training cost under 13 GPU-hours.

cs.IR cs.CV cs.LG

参考文献 (20)

VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents

Shi Yu, Chaoyue Tang, Bokai Xu 等

2024 148 引用 ⭐ 高影响力 查看解读 →

Qwen3-VL-Embedding and Qwen3-VL-Reranker: A Unified Framework for State-of-the-Art Multimodal Retrieval and Ranking

Mingxin Li, Yanzhao Zhang, Dingkun Long 等

2026 31 引用 ⭐ 高影响力 查看解读 →

SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features

Michael Tschannen, Alexey Gritsenko, Xiao Wang 等

2025 580 引用 ⭐ 高影响力 查看解读 →

ModernVBERT: Towards Smaller Visual Document Retrievers

Paul Teiletche, Quentin Macé, Max Conti 等

2025 9 引用 ⭐ 高影响力 查看解读 →

Cumulated gain-based evaluation of IR techniques

K. Järvelin, Jaana Kekäläinen

2002 5335 引用 ⭐ 高影响力

OPUS-MT – Building open translation services for the World

J. Tiedemann, Santhosh Thottingal

2020 692 引用

Distilling the Knowledge in a Neural Network

Geoffrey E. Hinton, O. Vinyals, J. Dean

2015 23271 引用 查看解读 →

Unveil: Unified Visual-Textual Integration and Distillation for Multi-modal Document Retrieval

Hao Sun, Yingyan Hou, Jiayan Guo 等

2025 4 引用

ViDoRe Benchmark V2: Raising the Bar for Visual Retrieval

Quentin Macé, Ant'onio Loison, Manuel Faysse

2025 28 引用 查看解读 →

CLIP-KD: An Empirical Study of CLIP Model Distillation

Chuanguang Yang, Zhulin An, Libo Huang 等

2023 94 引用 查看解读 →

Dense Passage Retrieval for Open-Domain Question Answering

Vladimir Karpukhin, Barlas Oğuz, Sewon Min 等

2020 5230 引用 查看解读 →

Representation Learning with Contrastive Predictive Coding

Aäron van den Oord, Yazhe Li, O. Vinyals

2018 12703 引用 查看解读 →

DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter

Victor Sanh, Lysandre Debut, Julien Chaumond 等

2019 9296 引用 查看解读 →

Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution

Peng Wang, Shuai Bai, Sinan Tan 等

2024 3501 引用 查看解读 →

Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks

Nils Reimers, Iryna Gurevych

2019 16641 引用 查看解读 →

RankDistil: Knowledge Distillation for Ranking

Sashank J. Reddi, Rama Kumar Pasumarthi, A. Menon 等

2021 39 引用

Languages

Martin East

2000 433 引用

ColBERT: Efficient and Effective Passage Search via Contextualized Late Interaction over BERT

O. Khattab, M. Zaharia

2020 1912 引用 查看解读 →

Efficiently Teaching an Effective Dense Retriever with Balanced Topic Aware Sampling

Sebastian Hofstätter, Sheng-Chieh Lin, Jheng-Hong Yang 等

2021 475 引用 查看解读 →

TinyCLIP: CLIP Distillation via Affinity Mimicking and Weight Inheritance

Kan Wu, Houwen Peng, Zhenghong Zhou 等

2023 109 引用 查看解读 →