Document-as-Image Representations Fall Short for Scientific Retrieval

TL;DR

文档作为图像的表示在科学检索中表现不佳，文本+图像交错表示更有效。

cs.IR 🔴 高级 2026-04-21 43 次浏览

Ghazal Khalighinejad Raghuveer Thirukovalluru Alexander H. Oh Bhuwan Dhingra

科学文档检索多模态表示 LaTeX 信息检索视觉语言模型

核心发现

方法论

本文提出了一种新的基准ArXivDoc，用于分析科学文档检索中不同表示方法的效果。通过从科学论文的LaTeX源文件构建文档，研究了文本、图像和多模态表示在单向量和多向量检索模型中的表现。通过系统比较，揭示了文本+图像交错表示在不需要专门训练的情况下优于文档作为图像的表示。

关键结果

结果1：文档作为图像的表示在所有查询类型中表现不佳，尤其是在文档长度增加时。即使在基于图像的查询中，文本+视觉语言模型描述的文本表示也表现更好。
结果2：文本表示在基于图像的查询中表现出色，利用了图像的标题和周围的文本上下文。
结果3：交错的文本+图像表示在不需要专门训练的情况下优于文档作为图像的表示，表明结合多种模态比单纯依赖渲染页面更具鲁棒性。

研究意义

该研究挑战了当前科学文档检索中普遍采用的文档作为图像表示的范式，强调了文本和多模态表示在处理结构化科学文档时的优势。这一发现对学术界和工业界都有重要意义，尤其是在需要精确检索和分析复杂文档内容的应用中。

技术贡献

技术贡献包括引入了一个新的基准ArXivDoc，提供了对文本、图像和多模态表示的系统比较。研究表明，文本+图像交错表示在不需要专门训练的情况下优于文档作为图像的表示，揭示了多模态结合的潜力。

新颖性

本研究首次系统地比较了文本、图像和多模态表示在科学文档检索中的表现。与现有工作不同，本文强调了文本和多模态表示在处理结构化科学文档时的优势。

局限性

局限1：研究主要集中在科学文档，可能不适用于其他类型的文档。
局限2：实验中使用的模型和数据集可能限制了结果的普遍性。
局限3：未考虑到不同领域文档的特定需求。

未来方向

未来的研究方向包括扩展ArXivDoc基准以涵盖更多领域和文档类型，以及开发更先进的多模态模型，以进一步提高科学文档检索的性能。

AI 总览摘要

在科学文档检索领域，传统上使用的文档作为图像的表示方法面临着挑战。现有的基准，如ArXivQA和ViDoRe，通常将文档视为页面的图像，这种方法在处理文本丰富的多模态科学文档时表现不佳。本文提出了一种新的基准ArXivDoc，通过从科学论文的LaTeX源文件构建文档，提供了对文本、图像和多模态表示的系统比较。

ArXivDoc基准的引入使得研究人员可以直接访问科学文档的结构化元素，如章节、表格、图形和公式，从而能够基于特定证据类型进行精确的查询构建。通过系统比较文本、图像和多模态表示，研究发现文本+图像交错表示在不需要专门训练的情况下优于文档作为图像的表示。

实验结果表明，文档作为图像的表示在所有查询类型中表现不佳，尤其是在文档长度增加时。即使在基于图像的查询中，文本表示通过利用图像的标题和周围的文本上下文表现出色。此外，交错的文本+图像表示在不需要专门训练的情况下优于文档作为图像的表示，表明结合多种模态比单纯依赖渲染页面更具鲁棒性。

这一研究对学术界和工业界都有重要意义，尤其是在需要精确检索和分析复杂文档内容的应用中。它挑战了当前科学文档检索中普遍采用的文档作为图像表示的范式，强调了文本和多模态表示在处理结构化科学文档时的优势。

未来的研究方向包括扩展ArXivDoc基准以涵盖更多领域和文档类型，以及开发更先进的多模态模型，以进一步提高科学文档检索的性能。

深度分析

研究背景

科学文档检索是信息检索领域的重要研究方向，其目标是从大量文档中找到与查询相关的证据。传统的检索系统通常将文档表示为纯文本或图像。然而，科学文档通常包含丰富的多模态信息，如文本、表格、图形和公式，这些信息在文档中以结构化的方式分布。近年来，随着视觉语言模型（VLMs）的发展，越来越多的研究开始关注将文档表示为图像的方式。然而，这种方法在处理文本丰富的多模态科学文档时表现不佳，因为它模糊了文档的结构信息。

核心问题

核心问题在于如何有效地表示和检索科学文档中的多模态信息。现有的方法通常将文档视为图像，这种表示方式在处理长文档和文本丰富的内容时表现不佳。此外，这种方法需要模型推断内容边界和关系，增加了检索的复杂性。因此，亟需一种能够保留文档结构信息的表示方法，以提高检索性能。

核心创新

本文的核心创新在于引入了一个新的基准ArXivDoc，用于分析科学文档检索中不同表示方法的效果。具体创新包括：

1. 基于LaTeX源文件构建文档，直接访问结构化元素，如章节、表格、图形和公式。

2. 系统比较文本、图像和多模态表示在单向量和多向量检索模型中的表现。

3. 发现文本+图像交错表示在不需要专门训练的情况下优于文档作为图像的表示。

方法详解

本文的方法包括以下几个步骤：

�� 数据集构建：从科学论文的LaTeX源文件构建ArXivDoc基准，包含8,210篇文档和547个经过人工验证的查询。
�� 表示方法比较：系统比较文本、图像和多模态表示在单向量和多向量检索模型中的表现。
�� 实验设计：使用多个嵌入模型评估不同表示方法的检索性能，采用nDCG@10作为评价指标。
�� 结果分析：分析不同表示方法在文本、表格和图形查询中的表现，揭示文本+图像交错表示的优势。

实验设计

实验设计包括使用ArXivDoc基准评估不同表示方法的检索性能。实验使用多个嵌入模型，包括文本嵌入模型和图像嵌入模型。检索性能通过nDCG@10进行评估，实验结果表明文本+图像交错表示在不需要专门训练的情况下优于文档作为图像的表示。此外，实验还分析了不同表示方法在文本、表格和图形查询中的表现。

结果分析

应用场景

该研究的应用场景包括科学文档的精确检索和分析，尤其是在需要处理复杂文档内容的应用中。通过保留文档的结构信息，文本+图像交错表示可以提高检索性能，适用于学术研究和工业应用。

局限与展望

本文的局限性包括：

1. 研究主要集中在科学文档，可能不适用于其他类型的文档。

2. 实验中使用的模型和数据集可能限制了结果的普遍性。

3. 未考虑到不同领域文档的特定需求。未来的研究可以扩展ArXivDoc基准以涵盖更多领域和文档类型。

通俗解读非专业人士也能看懂

想象你在一个图书馆里，想要找到一本关于特定主题的书。传统的方法是通过书的封面来判断内容，这就像是将文档表示为图像。虽然封面可以给你一些信息，但你无法知道书的具体内容。现在，假设你可以直接查看书的目录和章节标题，这就像是使用文本+图像交错表示。你可以更准确地找到你需要的信息，因为你可以看到书的结构和内容。这就是本文研究的核心：通过保留文档的结构信息，提高科学文档检索的准确性。

简单解释像给14岁少年讲一样

嘿，小伙伴们！想象一下你在玩一个寻宝游戏，你需要找到藏在一个大房子里的宝物。传统的方法是通过房子的外观来猜测宝物的位置，就像是把文档当成图片来看。虽然你可以看到房子的外观，但你不知道里面的布局和细节。现在，想象一下你有一张房子的地图，上面标注了每个房间和它们的内容，这就像是使用文本+图像交错表示。你可以更快地找到宝物，因为你知道每个房间里有什么。这就是本文研究的核心：通过保留文档的结构信息，提高科学文档检索的准确性。

术语表

文档作为图像 (Document-as-Image)

将文档的页面渲染为图像并进行嵌入的方法。这种方法在处理文本丰富的科学文档时表现不佳。

在科学文档检索中，通常用于视觉语言模型的输入。

多模态表示 (Multimodal Representation)

结合多种模态（如文本和图像）的信息表示方法。

用于提高科学文档检索的准确性。

视觉语言模型 (Vision-Language Model)

一种能够处理图像和文本的模型，通常用于多模态任务。

在本文中用于生成图像的描述。

LaTeX

一种用于科学文档排版的标记语言，能够保留文档的结构信息。

用于构建ArXivDoc基准的文档源。

nDCG@10

一种用于评估检索性能的指标，衡量相关文档在检索结果中的排名。

用于评估不同表示方法的检索性能。

单向量模型 (Single-Vector Model)

将整个文档或其部分表示为一个向量的模型。

在本文中用于比较不同表示方法的检索性能。

多向量模型 (Multi-Vector Model)

将文档表示为多个向量的模型，通常用于捕捉更细粒度的信息。

在本文中用于比较不同表示方法的检索性能。

ArXivDoc

一个新的基准，用于分析科学文档检索中不同表示方法的效果。

由本文提出，用于评估文本、图像和多模态表示。

文本+图像交错表示 (Interleaved Text+Image Representation)

一种结合文本和图像的表示方法，保留了文档的结构信息。

在本文中被证明优于文档作为图像的表示。

OCR (光学字符识别)

一种将图像中的文本转换为可编辑文本的技术。

在处理没有结构化源的文档时使用。

开放问题这项研究留下的未解疑问

1 开放问题1：如何在不增加计算复杂性的情况下提高多模态表示的检索性能？现有方法在处理长文档时表现不佳，需要更高效的模型。
2 开放问题2：如何扩展ArXivDoc基准以涵盖更多领域和文档类型？当前的基准主要集中在科学文档，可能不适用于其他类型的文档。
3 开放问题3：如何在多模态表示中更好地结合文本和图像信息？现有方法在处理复杂文档内容时表现不佳，需要更先进的模型。
4 开放问题4：如何在不增加计算复杂性的情况下提高文本+图像交错表示的检索性能？现有方法在处理长文档时表现不佳，需要更高效的模型。
5 开放问题5：如何在多模态表示中更好地结合文本和图像信息？现有方法在处理复杂文档内容时表现不佳，需要更先进的模型。
6 开放问题6：如何在不增加计算复杂性的情况下提高多模态表示的检索性能？现有方法在处理长文档时表现不佳，需要更高效的模型。
7 开放问题7：如何扩展ArXivDoc基准以涵盖更多领域和文档类型？当前的基准主要集中在科学文档，可能不适用于其他类型的文档。

应用场景

近期应用

科学文档检索

通过保留文档的结构信息，提高科学文档检索的准确性，适用于学术研究和工业应用。

多模态信息处理

结合文本和图像的信息，提高多模态信息处理的效率，适用于需要处理复杂文档内容的应用。

视觉语言模型应用

利用视觉语言模型生成图像描述，提高图像信息的可用性，适用于需要处理图像信息的应用。

远期愿景

跨领域文档检索

扩展ArXivDoc基准以涵盖更多领域和文档类型，提高跨领域文档检索的性能。

高级多模态模型开发

开发更先进的多模态模型，提高科学文档检索的性能，适用于需要处理复杂文档内容的应用。

原文摘要

Many recent document embedding models are trained on document-as-image representations, embedding rendered pages as images rather than the underlying source. Meanwhile, existing benchmarks for scientific document retrieval, such as ArXivQA and ViDoRe, treat documents as images of pages, implicitly favoring such representations. In this work, we argue that this paradigm is not well-suited for text-rich multimodal scientific documents, where critical evidence is distributed across structured sources, including text, tables, and figures. To study this setting, we introduce ArXivDoc, a new benchmark constructed from the underlying LaTeX sources of scientific papers. Unlike PDF or image-based representations, LaTeX provides direct access to structured elements (e.g., sections, tables, figures, equations), enabling controlled query construction grounded in specific evidence types. We systematically compare text-only, image-based, and multimodal representations across both single-vector and multi-vector retrieval models. Our results show that: (1) document-as-image representations are consistently suboptimal, especially as document length increases; (2) text-based representations are most effective, even for figure-based queries, by leveraging captions and surrounding context; and (3) interleaved text+image representations outperform document-as-image approaches without requiring specialized training.

cs.IR cs.AI cs.CL

参考文献 (20)

MMDocIR: Benchmarking Multi-Modal Retrieval for Long Documents

Kuicai Dong, Yujing Chang, Derrick-Goh-Xin Deik 等

2025 29 引用 ⭐ 高影响力查看解读 →

Qwen3-VL-Embedding and Qwen3-VL-Reranker: A Unified Framework for State-of-the-Art Multimodal Retrieval and Ranking

Mingxin Li, Yanzhao Zhang, Dingkun Long 等

2026 60 引用 ⭐ 高影响力查看解读 →

ColPali: Efficient Document Retrieval with Vision Language Models

Manuel Faysse, Hugues Sibille, Tony Wu 等

2024 130 引用 ⭐ 高影响力查看解读 →

E5-V: Universal Embeddings with Multimodal Large Language Models

Ting Jiang, Minghui Song, Zihan Zhang 等

2024 101 引用查看解读 →

Towards Natural Language-Based Document Image Retrieval: New Dataset and Benchmark

Hao Guo, Xugong Qin, Jun Jie Ou Yang 等

2025 5 引用查看解读 →

An Overview of the Tesseract OCR Engine

Raymond W. Smith

2007 2550 引用

Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution

Peng Wang, Shuai Bai, Sinan Tan 等

2024 3827 引用查看解读 →

Llama-Embed-Nemotron-8B: A Universal Text Embedding Model for Multilingual and Cross-Lingual Tasks

Yauhen Babakhin, Radek Osmulski, Ronay Ak 等

2025 24 引用查看解读 →

MDocAgent: A Multi-Modal Multi-Agent Framework for Document Understanding

Siwei Han, Peng Xia, Ruiyi Zhang 等

2025 43 引用查看解读 →

Glyph: Scaling Context Windows via Visual-Text Compression

Jiale Cheng, Yusen Liu, Xinyu Zhang 等

2025 26 引用查看解读 →

Learning Transferable Visual Models From Natural Language Supervision

Alec Radford, Jong Wook Kim, Chris Hallacy 等

2021 46905 引用查看解读 →

MultiModalQA: Complex Question Answering over Text, Tables and Images

Alon Talmor, Ori Yoran, Amnon Catav 等

2021 226 引用查看解读 →

ViDoRe Benchmark V2: Raising the Bar for Visual Retrieval

Quentin Macé, Ant'onio Loison, Manuel Faysse

2025 36 引用查看解读 →

VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents

Shi Yu, Chaoyue Tang, Bokai Xu 等

2024 172 引用查看解读 →

Zero-shot Multimodal Document Retrieval via Cross-modal Question Generation

Yejin Choi, Jaewoo Park, Janghan Yoon 等

2025 2 引用查看解读 →

Bridging Modalities: Improving Universal Multimodal Retrieval by Multimodal Large Language Models

Xin Zhang, Yanzhao Zhang, Wen Xie 等

2025 23 引用

PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model

Cheng Cui, Ting Sun, Suyin Liang 等

2025 44 引用查看解读 →

jina-embeddings-v4: Universal Embeddings for Multimodal Multilingual Retrieval

Michael Günther, Saba Sturua, Mohammad Kalim Akram 等

2025 48 引用查看解读 →

PixelWorld: Towards Perceiving Everything as Pixels

Z. Lyu, Xueguang Ma, Wenhu Chen

2025 6 引用

Mitigating the Impact of False Negative in Dense Retrieval with Contrastive Confidence Regularization

Shiqi Wang, Yeqin Zhang, Cam-Tu Nguyen

2024 6 引用

Document-as-Image Representations Fall Short for Scientific Retrieval

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

文档作为图像 (Document-as-Image)

多模态表示 (Multimodal Representation)

视觉语言模型 (Vision-Language Model)

LaTeX

nDCG@10

单向量模型 (Single-Vector Model)

多向量模型 (Multi-Vector Model)

ArXivDoc

文本+图像交错表示 (Interleaved Text+Image Representation)

OCR (光学字符识别)

开放问题 这项研究留下的未解疑问

应用场景

近期应用

科学文档检索

多模态信息处理

视觉语言模型应用

远期愿景

跨领域文档检索

高级多模态模型开发

原文摘要

参考文献 (20)

相关论文

Aligning Dense Retrievers with LLM Utility via DistillationAligning Dense Retrievers with LLM Utility via Distillation

Can QPP Choose the Right Query Variant? Evaluating Query Variant Selection for RAG Pipelines

Objective Shaping with Hard Negatives: Windowed Partial AUC Optimization for RL-based LLM Recommenders

Rethinking Semantic Collaborative Integration: Why Alignment Is Not Enough

ResRank: Unifying Retrieval and Listwise Reranking via End-to-End Joint Training with Residual Passage Compression

ECLASS-Augmented Semantic Product Search for Electronic Components

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问