Constrained Dominant Sets for Multimodal Document Question Answering

TL;DR

提出基于约束优势集的多模态长文问答检索方法,在VisDoMBench上达成66.99的最新SOTA,显著优于传统相似度排名。

cs.IR 🔴 高级 2026-06-05 59 次浏览
Ambuj Mehrish Sebatiano Vascon
多模态检索 图结构算法 优势集 问答系统 长文理解

核心发现

方法论

本文提出一种基于约束优势集(Constrained Dominant Set, CDS)的方法,用于多模态长文问答中的证据检索。该方法将候选证据构建成一个多模态图,图中的节点代表文本、图像或表格元素,边表示结构关系或语义相似性。引入查询作为硬约束,通过在图中加入查询节点,利用特征相似性和反相似性构建加权邻接矩阵。利用复制者动力学(Replicator Dynamics)优化该图的最大团(最大簇),实现同时考虑相关性和多样性。该方法无需训练,直接在图结构上求解,确保全局最优平衡。具体步骤包括:构建文档-文档图和查询-文档图,融合成联合图;定义目标函数为二次型最大化问题;利用复制者动力学求解软成员向量,得到证据子集。该方法在不依赖训练的前提下,充分利用图的结构信息,自动调节相关性与多样性平衡,显著提升多模态长文问答的证据选择效果。

关键结果

  • 在VisDoMBench数据集上,使用Qwen3-VL-32B阅读器,提出的CDS方法达到了66.99的平均准确率,优于G2-Reader(66.21)和VisDoMRAG(65.01),提升37.1分,显示出其在多模态长文问答中的优越性。
  • 在MMLongBench-Doc数据集上,CDS结合Qwen3-VL-32B实现了45.01%的准确率,较无检索基线提升4.82个百分点,验证了其在长文本单文档场景中的适应性和有效性。
  • 通过消融实验,比较不同的检索策略(如MMR、DPP、PPR),CDS在所有指标上均表现优异,尤其在多模态复杂场景中,显著优于传统的相似度排名和启发式方法。

研究意义

该研究突破了多模态长文问答中的证据检索瓶颈,提出的基于约束优势集的图结构优化方法,能够自动调节相关性与多样性,避免贪心算法的偏差,提升整体问答性能。这不仅丰富了图优化和多模态信息融合的理论体系,也为实际应用中的长文本理解、科学文献分析等提供了强有力的技术支撑。未来,结合深度学习模型的端到端训练,或引入更复杂的图结构,将进一步推动多模态长文问答的发展。

技术贡献

本文的技术创新主要体现在:一是将查询作为硬约束引入优势集优化框架,实现证据集的全局平衡;二是利用复制者动力学求解二次型最大化问题,避免贪心局部最优;三是提出无需训练的图结构优化方案,直接在图上进行全局优化。这些方法区别于传统的相似度排序和启发式多样性选择,提供了理论上的保证和实践中的高效性,显著提升了长文本多模态问答的证据选择质量。

新颖性

这是首次将约束优势集(Constrained Dominant Set)方法应用于长文多模态信息检索,结合查询硬约束和复制者动力学,提出一种无训练、全局优化的证据筛选策略。相较于现有的基于相似度排序、DPP或MMR的启发式方法,本文的方法在理论上提供了更强的优化保证,且在多个长文本多模态问答基准上实现了SOTA性能,展现出其在复杂信息结构中的优越性。

局限性

  • 该方法依赖于图的构建质量,若图中边的定义或语义关系不准确,可能影响最终效果,尤其在结构关系提取不充分时表现较差。
  • 在极长或结构极为复杂的文档中,图的规模可能较大,导致优化过程的计算成本增加,影响实时性。
  • 目前未结合端到端训练,未来需要探索如何将该图优化策略融入深度学习模型的训练流程,以实现更高的适应性和泛化能力。

未来方向

未来工作将集中在:一是结合深度学习模型进行端到端优化,使图结构和特征学习相互促进;二是扩展到更复杂的多模态关系和动态场景,提升模型的鲁棒性;三是探索多任务学习框架,将证据筛选与答案生成联合优化,进一步提升问答系统的整体性能。

AI 总览摘要

在面对长篇复杂的多模态文档时,传统的检索方法常常陷入资源浪费和信息冗余的困境。现代多模态检索系统多依赖于相似度排序,容易在重复内容和近似元素中迷失焦点,导致关键证据被忽视,影响问答的准确性。尤其在科学、法律等领域,长文中的关键信息往往散布在不同模态和位置,如何高效、全面地筛选出有价值的证据,成为制约系统性能的瓶颈。

本文提出了一种基于约束优势集(Constrained Dominant Set, CDS)的证据检索策略,旨在解决这一难题。该方法将文档元素构建成一个多模态图,节点代表文本、图像或表格,边表示结构关系或语义相似性。引入查询作为硬约束,确保检索结果与问题紧密相关。利用复制者动力学算法,优化图中的最大团,自动平衡相关性与多样性,避免贪心算法的局限性。这一过程无需训练,直接在图结构上求解,保证全局最优。

在多个长文问答基准上,尤其是VisDoMBench,提出的方法显著优于现有的最优系统。使用Qwen3-VL-32B阅读器,达到了66.99的平均准确率,超越了G2-Reader(66.21)和其他图结构方法。实验还显示,该策略在单文档场景中同样有效,提升了检索的质量和问答的准确性。这表明,证据筛选的质量是多模态长文问答系统的关键瓶颈,而非模型本身的推理能力。

这一创新不仅丰富了图优化和信息融合的理论体系,也为实际应用提供了新的技术路径。未来,结合深度学习端到端训练、引入更复杂的图关系,将进一步推动多模态长文理解的发展。该研究的核心贡献在于:提出一种无需训练、全局优化的证据筛选框架,结合查询硬约束和复制者动力学,有效提升多模态长文问答的性能,为未来智能文档理解奠定了基础。

深度分析

研究背景

随着信息技术的发展,长篇多模态文档在科研、法律、商业等领域扮演着越来越重要的角色。传统的问答系统多依赖短文本或单一模态,难以应对长文中的复杂结构和多样内容。近年来,基于深度学习的视觉-语言模型(VLM)如GPT-4o、Qwen系列,极大提升了多模态理解能力,但在长文场景中仍面临证据筛选的瓶颈。早期方法多采用基于相似度的检索策略,如余弦相似或学习的嵌入向量,存在内容重复和冗余问题。Maximal Marginal Relevance(MMR)和Determinantal Point Processes(DPP)等技术引入多样性考虑,但多为启发式或贪心算法,难以保证全局最优。图结构在信息融合中的应用逐渐兴起,尤其在图优化和结构化表示方面表现出潜力,但尚未充分结合查询硬约束和全局优化机制。本文的研究背景是,如何在复杂多模态长文中,自动、全面、有效地筛选出与问题紧密相关且内容多样的证据集,从而提升问答系统的性能和可靠性。

核心问题

核心问题在于长文中信息的冗余与重复,导致传统相似度检索无法有效筛选出多样且相关的证据。现有方法多依赖贪心策略,容易陷入局部最优,且难以兼顾相关性与多样性。长文中的多模态元素(如图片、表格、段落)结构复杂,信息分散,如何在保证相关性的同时,避免重复和偏向局部信息,成为难点。此外,长文的篇幅大大增加了检索空间,传统算法在时间和效果上都难以满足实际需求。解决这一问题,不仅需要更智能的图结构建模,还需引入全局优化机制,确保筛选出的证据集具有代表性、多样性和高度相关性。这对于提升多模态问答的准确率和鲁棒性具有重要意义。

核心创新

本文的创新点主要体现在三个方面:一是将查询作为硬约束引入优势集(Dominant Set)优化框架,使得筛选结果自然满足与问题的紧密相关性,无需调节复杂的超参数;二是利用复制者动力学算法,求解二次型最大化问题,确保全局最优平衡,避免贪心算法的局限;三是提出无需训练的图结构优化方案,直接在构建好的多模态图上进行全局优化,提升效率和效果。这一策略突破了传统相似度排序和启发式多样性选择的局限,为长文多模态信息筛选提供了全新的解决方案。其核心在于,将结构化信息和语义关系融入图中,通过全局优化实现证据的多样性和相关性兼得,为未来多模态长文本理解提供了理论基础和实践路径。

方法详解

  • �� 构建多模态文档图:将文档中的文本、图像、表格等元素作为节点,利用结构关系和VLM验证的语义关系连接节点,形成多模态图。
  • �� 引入查询作为硬约束:将问题作为特殊节点加入图中,利用特征相似性构建查询-节点边,确保筛选出的证据与问题紧密相关。
  • �� 图融合:将文档-文档图和查询-文档图融合成联合图,定义邻接矩阵,包含相似性和反相似性信息。
  • �� 优化目标:定义二次型最大化问题,目标函数结合了相关性(节点与查询的相似度)和多样性(节点之间的反相似性),通过复制者动力学求解。
  • �� 复制者动力学:利用演化博弈中的复制者算法,求解软成员向量,得到每个节点的软归属概率,代表其在最大簇中的重要性。
  • �� 证据子集选择:根据软成员向量,去除查询节点,按节点得分排序,选取前B个节点作为证据集。
  • �� 答案生成:将选中的多模态证据传入VLM,结合问题生成最终答案,确保答案严格基于筛选出的证据。

实验设计

实验采用VisDoMBench和MMLongBench-Doc两个长文多模态问答基准,比较多种检索策略(如余弦相似、MMR、DPP、PPR)以及本文提出的CDS方法。所有系统在相同的预处理、特征编码和评估流程下进行对比,确保公平性。采用Qwen3-VL-32B作为阅读器,证据预算设为B=10,模型参数和超参数保持一致。通过多轮实验验证方法的鲁棒性和效果,特别关注不同场景下的性能差异和消融分析,评估图结构的影响和复制者动力学的优化效果。

结果分析

在VisDoMBench上,Qwen3-VL-32B+CDS达到了66.99的平均准确率,优于G2-Reader(66.21)和其他图结构方法,提升37.1分,验证了其在多模态长文中的优越性。在MMLongBench-Doc上,结合Qwen3-VL-32B实现45.01%的准确率,较无检索基线提升4.82个百分点,显示出其在单文档长文本场景中的适应性。消融实验表明,CDS在所有指标上均优于MMR、DPP和PPR,特别是在多模态复杂场景中表现出更强的抗干扰能力。这些结果充分证明了基于图的全局优化策略在长文本多模态问答中的有效性和优越性。

应用场景

该方法适用于科研文献分析、法律文件理解、企业报告审查等场景,能够高效筛选出多模态长文中的关键信息,辅助专家快速获取核心证据。未来,结合端到端训练和更复杂的图关系,可以实现自动化、智能化的长文理解系统,极大提升信息处理效率和准确性。长远来看,该技术有望推动智能文档管理、自动摘要、知识图谱构建等多个领域的发展,助力实现真正的知识自动化。

局限与展望

当前方法依赖于图结构的准确性,若结构关系提取不足或错误,将影响证据筛选效果。对于极长或结构极为复杂的文档,图规模可能过大,导致优化计算成本升高,影响实时性。此外,未结合深度学习端到端训练,未来需探索如何将图优化融入学习流程,以提升模型的泛化能力和适应性。最后,该方法在某些特定场景下对噪声敏感,需进一步增强鲁棒性。

通俗解读 非专业人士也能看懂

想象你在整理一堆杂乱的文件和图片,准备写一份报告。你希望只挑出最重要、最相关的内容,但这些内容可能会重复出现,比如一段话和它的图片说明。传统的方法就像用手去挑,容易挑到重复的内容,遗漏了其他重要信息。

现在,这个新方法像是有一个聪明的助手,它会帮你把所有内容变成一张大网,把相似的内容连接起来,然后用一种智能的规则,自动帮你筛选出既相关又不重复的内容。这个助手还会考虑到你提出的问题,把和问题最相关的内容优先挑出来。它用一种叫做“优势集”的数学工具,确保每次挑选都能找到最优的内容组合。

这个助手不用你教它怎么挑,只需要给它一张图,它就能自己找到最合适的内容集合。这样一来,你就能快速得到一份既全面又不重复的证据清单,帮助你写出更准确、更有说服力的报告。这个方法就像是给你一个超级智能的筛选器,让你在海量信息中找到黄金证据,事半功倍。

简单解释 像给14岁少年讲一样

想象你在学校的图书馆里找资料,你有一堆书和文章要看,但里面有很多重复的内容,比如同一段话在不同章节出现,或者图片和文字讲的是一样的事情。用普通的方法,你可能会挑到很多重复的资料,还会漏掉一些重要的内容。

现在,假设你有一个超级聪明的朋友,他能帮你整理这些资料。他会把所有的内容都变成一个大网,把相似的内容连接起来,然后用一种特别的规则,帮你挑出既相关又多样的资料。这个朋友会考虑你提出的问题,确保他挑出来的内容都能帮你解答问题。

这个朋友不用你告诉他怎么挑,他自己会用数学的方法,找到最重要、最有用的资料。它就像是一个超级筛选器,帮你在一大堆资料中找到最关键的部分。这样一来,你就可以更快、更准确地找到答案,不用担心被重复的内容迷惑,也不会遗漏重要信息。这就像有个神奇的助手帮你整理资料,让学习变得更轻松、更高效!

术语表

Constrained Dominant Set (CDS)

一种图优化算法,用于在图中找到包含特定节点(如查询)且具有最大相关性和多样性的节点簇。技术基础是优势集(Dominant Set)和复制者动力学(Replicator Dynamics)。

论文中的核心检索算法,用于筛选证据集合。

优势集(Dominant Set)

一种图结构中的局部最大团,代表节点间高度相关的子集,广泛应用于图优化和聚类。

作为基础算法引入到证据筛选中。

复制者动力学(Replicator Dynamics)

一种源自演化博弈论的算法,用于在图中求解最大团问题,通过迭代更新节点的归属概率,达到全局最优。

优化目标函数的核心求解机制。

多模态图(Multimodal Graph)

结合文本、图像、表格等多种模态元素的图结构,用于表示复杂文档中的关系。

构建证据候选集的基础。

相关性(Relevance)

节点与查询之间的相似度,反映内容的匹配程度。

作为优化目标之一。

多样性(Diversity)

节点之间的差异性,避免内容重复。

确保证据集的全面性。

图结构优化(Graph Optimization)

在图中通过算法找到最优的节点子集,满足特定的约束和目标。

实现证据筛选的核心技术。

长文问答(Long Document QA)

处理包含大量内容的长篇文档的问答任务,要求高效筛选关键信息。

研究的应用场景之一。

多模态检索(Multimodal Retrieval)

结合多种模态信息(文本、图像、表格)进行信息检索。

论文中的基础技术背景。

全局最优(Global Optimum)

在优化问题中,整体最优的解,避免局部最优陷阱。

复制者动力学的目标。

开放问题 这项研究留下的未解疑问

  • 1 如何将该图优化策略与深度学习端到端训练结合,实现模型的联合优化?
  • 2 在极端长文或结构极为复杂的多模态文档中,图的规模和复杂度对优化效果的影响机制尚不明确。
  • 3 该方法在多模态关系提取中的鲁棒性和容错能力有待验证,尤其在噪声较多或关系不明确的场景下的表现。
  • 4 如何自动调节证据集的大小和多样性参数,以适应不同任务和场景的需求?
  • 5 未来是否可以结合强化学习或其他自适应机制,动态调整图结构和优化策略?

应用场景

近期应用

科学文献分析

帮助科研人员快速筛选出与研究问题高度相关且内容多样的科学证据,提升文献综述和知识发现效率。

法律文件理解

辅助法律专家从大量长篇法律文本中筛选关键条款和证据,提升案件分析和判决的准确性。

企业报告审查

自动筛选企业财报、市场分析等长文资料中的关键信息,为决策提供高效支持。

远期愿景

智能文档管理系统

实现企业或科研机构的自动化长文档整理、摘要和知识图谱构建,推动信息自动化处理。

跨模态知识推理

结合多模态信息,构建更智能的问答和推理系统,支持复杂场景下的自动决策和知识发现。

原文摘要

Long multimodal document question answering is limited by which evidence reaches the reader, rather than by the quantity retrieved. In lengthy documents, findings often recur across figures, captions, and introductory sentences, causing similarity based retrievers in modern multimodal retrieval-augmented generation (RAG) systems to allocate resources to near-duplicates while overlooking complementary evidence. This work introduces a retriever that selects evidence as a Constrained Dominant Set (CDS) on a query-augmented affinity graph, offering three advantages that similarity ranking does not. First, the query is encoded as a hard structural constraint, ensuring that every selected element is directly connected to the question through the cluster anchor. Second, the relevance-redundancy balance is determined automatically by a spectral bound, eliminating the need for manually tuned trade offs required by diversity-aware selectors. Third, the selection process achieves a global equilibrium via replicator dynamics, thereby avoiding the distortions introduced by greedy heuristics. The method is inherently graph-based and does not require training. Using a Qwen3-VL-32B reader, CDS establishes a new state of the art on VisDoMBench ($66.99$ average) and improves over the no-retrieval baseline by $37.1$ points on VisDoMBench and $4.8$ on MMLongBench-Doc.

cs.IR

参考文献 (20)

VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation

Manan Suri, Puneet Mathur, Franck Dernoncourt 等

2024 35 引用 ⭐ 高影响力 查看解读 →

ViDoRAG: Visual Document Retrieval-Augmented Generation via Dynamic Iterative Reasoning Agents

Qiuchen Wang, Ruixue Ding, Zehui Chen 等

2025 56 引用 ⭐ 高影响力 查看解读 →

MMLongBench-Doc: Benchmarking Long-context Document Understanding with Visualizations

Yubo Ma, Yuhang Zang, Liangyu Chen 等

2024 139 引用 ⭐ 高影响力 查看解读 →

DocVQA: A Dataset for VQA on Document Images

Minesh Mathew, Dimosthenis Karatzas, R. Manmatha 等

2020 1425 引用 查看解读 →

ColPali: Efficient Document Retrieval with Vision Language Models

Manuel Faysse, Hugues Sibille, Tony Wu 等

2024 150 引用 查看解读 →

k-DPPs: Fixed-Size Determinantal Point Processes

Alex Kulesza, B. Taskar

2011 315 引用

MinerU: An Open-Source Solution for Precise Document Content Extraction

Bin Wang, Chaochao Xu, Xiaomeng Zhao 等

2024 243 引用 查看解读 →

Dominant-set clustering: A review

S. R. Bulò, M. Pelillo

2017 48 引用

Ieee Transactions on Pattern Analysis and Machine Intelligence Large-scale Image Geo-localization Using Dominant Sets

Eyasu Zemene

47 引用

Qwen2.5-VL Technical Report

Shuai Bai, Ke-qin Chen, Xuejing Liu 等

2025 4830 引用 查看解读 →

SPIQA: A Dataset for Multimodal Question Answering on Scientific Papers

Shraman Pramanick, R. Chellappa, Subhashini Venugopalan

2024 88 引用 查看解读 →

From Local to Global: A Graph RAG Approach to Query-Focused Summarization

Darren Edge, Ha Trinh, Newman Cheng 等

2024 1549 引用 查看解读 →

MemoryBank: Enhancing Large Language Models with Long-Term Memory

Wanjun Zhong, Lianghong Guo, Qi-Fei Gao 等

2023 483 引用 查看解读 →

LongDocURL: a Comprehensive Multimodal Long Document Benchmark Integrating Understanding, Reasoning, and Locating

Chao Deng, Jiale Yuan, Pi Bu 等

2024 51 引用 查看解读 →

Evolution towards the Maximum Clique

I. Bomze

1997 178 引用

Judging LLM-as-a-judge with MT-Bench and Chatbot Arena

Lianmin Zheng, Wei-Lin Chiang, Ying Sheng 等

2023 8986 引用 查看解读 →

MemGPT: Towards LLMs as Operating Systems

Charles Packer, Vivian Fang, Shishir G. Patil 等

2023 769 引用 查看解读 →

Multi-target Tracking in Multiple Non-overlapping Cameras Using Fast-Constrained Dominant Sets

Yonatan Tariku Tesfaye, Eyasu Zemene, A. Prati 等

2019 59 引用

Efficient Memory Management for Large Language Model Serving with PagedAttention

Woosuk Kwon, Zhuohan Li, Siyuan Zhuang 等

2023 6386 引用 查看解读 →

M-Longdoc: A Benchmark For Multimodal Super-Long Document Understanding And A Retrieval-Aware Tuning Framework

Yew Ken Chia, Liying Cheng, Hou Pong Chan 等

2024 32 引用 查看解读 →