VideoDetective: Clue Hunting via both Extrinsic Query and Intrinsic Relevance for Long Video Understanding

TL;DR

VideoDetective通过结合外部查询和内部相关性，实现长视频理解，提升了VideoMME-long准确率7.5%。

cs.CV 🔴 高级 2026-03-24 40 次浏览

Ruoliu Yang Chu Wu Caifeng Shan Ran He Chaoyou Fu

长视频理解多模态大语言模型视频段落相关性图扩散假设验证循环

核心发现

方法论

VideoDetective是一种新颖的长视频推理框架，结合外部查询相关性和视频内部结构。通过构建视觉-时间亲和图，框架执行“假设-验证-精炼”循环，选择锚点段落，提取多源信息进行验证，并通过图扩散传播相关性，最终形成全局相关性分布。这种方法有效地定位关键线索段落，提升了长视频问答的准确性。

关键结果

在VideoMME-long数据集上，VideoDetective框架将准确率提高了7.5%，显著优于现有的多模态大语言模型。这表明该方法在长视频理解任务中具有显著的性能提升。
通过与其他四种长视频理解框架（LVNet, DVD, VideoAgent, VideoRAG）比较，VideoDetective在相同的模型基础上表现出更高的准确性，证明了其在不同模型上的通用性和有效性。
消融实验表明，去掉图扩散机制后，性能下降4.2%，而去掉语义分解后，准确率降至47.8%，甚至低于基线。这验证了图扩散和语义分解在框架中的关键作用。

研究意义

VideoDetective在长视频理解领域具有重要意义。它不仅提升了多模态大语言模型在长视频问答任务中的表现，还提供了一种高效的线索定位机制，解决了现有方法中忽视视频内部结构的问题。该框架通过结合外部查询和内部相关性，为长视频理解提供了新的思路，具有广泛的学术和工业应用潜力。

技术贡献

VideoDetective的技术贡献在于其创新性地结合了外部查询相关性和视频内部结构，提出了一种新的长视频推理框架。通过构建视觉-时间亲和图和执行“假设-验证-精炼”循环，该框架实现了从稀疏观察中恢复全局语义信息的能力。这种方法不仅在理论上提供了新的保证，还为长视频理解任务提供了新的工程可能性。

新颖性

VideoDetective首次提出结合外部查询和视频内部相关性的方法，通过视觉-时间亲和图和图扩散机制，实现了长视频问答任务中的线索定位。与现有方法相比，该框架不仅关注查询与内容的匹配，还充分利用了视频的内在结构，提供了一种全新的长视频理解思路。

局限性

该框架依赖于视觉语言模型提供反馈信号（如“缺失关键词”），在某些情况下可能会受到VLM能力的限制。
在处理非常长的视频时，计算成本可能会增加，尽管该框架通过稀疏采样提高了效率。
在多模态信息不完整或不准确的情况下，可能会影响最终的推理结果。

未来方向

未来的研究方向包括探索更复杂的相关性评估机制，以提高框架的鲁棒性。此外，可以研究如何在更大规模的视频数据集上应用该框架，并优化其在不同多模态大语言模型上的适应性。

AI 总览摘要

长视频理解一直是多模态大语言模型（MLLMs）的挑战，主要由于其有限的上下文窗口，难以识别稀疏的查询相关视频段落。现有方法通常仅基于查询定位线索，忽视了视频的内在结构和段落间的相关性。为了解决这一问题，本文提出了VideoDetective框架，该框架结合了查询到段落的相关性和段落间的亲和性，有效地在长视频问答中进行线索搜索。

VideoDetective通过将视频划分为多个段落，并将其表示为基于视觉相似性和时间接近性的视觉-时间亲和图，进行推理。框架执行“假设-验证-精炼”循环，估计观察到的段落对查询的相关性分数，并将其传播到未观察到的段落，从而生成全局相关性分布，指导最终回答的关键段落定位。

实验结果表明，该方法在代表性基准上显著提升了多种主流MLLMs的性能，在VideoMME-long数据集上准确率提升高达7.5%。这种性能提升表明，VideoDetective在长视频理解任务中具有显著的优势，不仅提高了现有模型的准确性，还为长视频问答提供了一种新的解决方案。

该框架的核心技术原理包括构建视觉-时间亲和图，通过图扩散机制传播相关性，以及在“假设-验证-精炼”循环中动态选择锚点段落进行验证。这种方法不仅提高了线索定位的效率，还通过稀疏观察实现了全局语义信息的恢复。

VideoDetective的广泛应用潜力体现在其能够在不增加计算成本的情况下，提升长视频理解任务的性能。这种方法不仅适用于学术研究，还可以在工业应用中发挥重要作用，如视频监控、内容分析等。

尽管VideoDetective在长视频理解中表现出色，但其依赖于视觉语言模型提供反馈信号，可能在某些情况下受到限制。未来的研究可以探索更复杂的相关性评估机制，以提高框架的鲁棒性和适应性。

深度分析

研究背景

长视频理解是多模态大语言模型（MLLMs）面临的一个重要挑战。随着视频内容的日益丰富，如何在有限的上下文窗口内有效处理长视频信息成为研究热点。现有方法主要集中于基于查询的信息检索，如关键帧选择方法和基于文本相似性的检索方法。然而，这些方法通常忽视了视频的内在结构，仅关注查询与内容的匹配，难以在复杂的长视频中有效定位关键线索。

近年来，随着计算能力的提升和算法的进步，长视频理解方法逐渐从单一的查询驱动转向结合视频内部结构的多模态推理。代表性工作包括基于视觉相似性和时间接近性的段落划分方法，以及利用图扩散机制传播相关性的方法。这些方法在一定程度上提高了长视频理解的效率，但仍存在诸多挑战，如如何在稀疏观察下恢复全局语义信息，以及如何在不增加计算成本的情况下提高模型的准确性。

核心问题

长视频理解的核心问题在于如何在有限的上下文窗口内有效识别查询相关的视频段落。现有方法通常仅基于查询信息进行线索定位，忽视了视频的内在结构和段落间的相关性。这种单向的查询到视频搜索范式难以在复杂的长视频中有效定位关键线索，尤其是在需要复杂推理的问题中。此外，如何在不增加计算成本的情况下提高模型的准确性也是一个重要挑战。

核心创新

VideoDetective的核心创新在于其结合了外部查询相关性和视频内部结构，通过构建视觉-时间亲和图和执行“假设-验证-精炼”循环，实现了长视频问答任务中的线索定位。

�� 视觉-时间亲和图：通过视觉相似性和时间接近性构建图结构，捕捉视频段落间的内在关联。

�� 假设-验证-精炼循环：动态选择锚点段落进行验证，通过图扩散机制传播相关性，形成全局相关性分布。

�� 多源信息提取：从锚点段落中提取多源信息（如视觉字幕、OCR、ASR），验证其局部相关性并计算线索分数。

这些创新不仅提高了线索定位的效率，还通过稀疏观察实现了全局语义信息的恢复，为长视频理解提供了一种新的解决方案。

方法详解

VideoDetective的方法细节如下：

�� 视频划分：将视频划分为多个段落，基于视觉相似性和时间接近性构建视觉-时间亲和图。

�� 锚点选择：初始选择基于查询引导的锚点段落，动态选择下一个最具信息量的段落作为锚点。

�� 多源信息提取：从锚点段落中提取多源信息（如视觉字幕、OCR、ASR），验证其局部相关性并计算线索分数。

�� 图扩散：通过图扩散机制传播已访问段落的相关性到未访问段落，更新全局相关性分布。

�� 线索定位：根据全局相关性分布定位关键段落，生成最终答案。

实验设计

实验设计包括在四个代表性基准上验证VideoDetective的性能，分别是VideoMME-long、LVBench、LongVideoBench和MLVU。实验中使用了多种主流多模态大语言模型作为基线，包括GPT-4o、Gemini-1.5-Pro、SeedVL-1.5等。关键超参数包括图结构的稀疏度和时间衰减因子τ。消融实验用于验证框架中各个组件的独立贡献，特别是图扩散机制和语义分解的作用。

结果分析

实验结果表明，VideoDetective在VideoMME-long数据集上将准确率提高了7.5%，显著优于现有的多模态大语言模型。此外，与其他四种长视频理解框架（LVNet, DVD, VideoAgent, VideoRAG）比较，VideoDetective在相同的模型基础上表现出更高的准确性，证明了其在不同模型上的通用性和有效性。消融实验表明，去掉图扩散机制后，性能下降4.2%，而去掉语义分解后，准确率降至47.8%，甚至低于基线。这验证了图扩散和语义分解在框架中的关键作用。

应用场景

VideoDetective在长视频理解任务中具有广泛的应用场景。直接应用包括视频监控中的异常检测、内容分析中的关键事件定位等。这些应用需要对长视频进行高效的线索定位，以便在有限的计算资源下实现准确的推理。工业影响体现在该框架能够在不增加计算成本的情况下，提升长视频理解任务的性能，为相关领域的研究和应用提供新的思路。

局限与展望

尽管VideoDetective在长视频理解中表现出色，但其依赖于视觉语言模型提供反馈信号，可能在某些情况下受到限制。此外，在处理非常长的视频时，计算成本可能会增加，尽管该框架通过稀疏采样提高了效率。在多模态信息不完整或不准确的情况下，可能会影响最终的推理结果。未来的研究可以探索更复杂的相关性评估机制，以提高框架的鲁棒性和适应性。

通俗解读非专业人士也能看懂

想象你在一个巨大的图书馆里寻找一本特定的书。这个图书馆有成千上万的书架，每个书架上都有无数的书。你有一个问题需要解答，而这本书正是答案的关键。

VideoDetective就像是一个聪明的图书馆助手。它不仅仅是根据你的问题去寻找书架上的书，而是会先观察整个图书馆的布局，了解哪些书架可能更相关。它会在书架之间建立联系，找出哪些书可能包含你需要的信息。

接下来，它会选择一些关键的书架进行检查，看看这些书架上的书是否包含答案。如果没有，它会根据之前的观察，继续寻找其他可能的书架。这个过程就像是在图书馆中进行了一次“假设-验证-精炼”的循环。

最终，VideoDetective能够在不需要查看每一本书的情况下，找到最有可能包含答案的书。这种方法不仅节省了时间，还提高了找到正确答案的概率。就像在图书馆中找到一本书一样，VideoDetective帮助我们在长视频中找到关键的线索。

简单解释像给14岁少年讲一样

嘿，小伙伴！你有没有想过，在看那些超级长的视频时，怎么才能快速找到你想要的信息呢？这就像是在一个巨大的迷宫里找出口，得有点技巧哦！

VideoDetective就是这样一个超级聪明的帮手。想象一下，它就像是一个会飞的无人机，可以在迷宫上空飞来飞去，帮你找出最快的路线。它不仅仅是根据你给的线索去找出口，还会观察迷宫的结构，找出哪些路可能更快。

它会先选几个关键的路口进行检查，看看这些路口是不是通往出口的。如果不是，它会根据之前的观察，继续寻找其他可能的路口。就像是在玩一个“假设-验证-精炼”的游戏。

最终，VideoDetective能够在不需要走遍每一条路的情况下，找到最有可能通往出口的路线。这种方法不仅节省了时间，还提高了找到出口的概率。是不是很酷？

术语表

多模态大语言模型 (MLLM)

一种结合多种模态（如文本、图像、视频）进行理解和推理的语言模型，能够在复杂任务中进行跨模态信息融合。

在本文中，MLLM用于长视频问答任务，通过结合多模态信息提高理解能力。

视觉-时间亲和图

一种基于视觉相似性和时间接近性构建的图结构，用于表示视频段落间的内在关联。

本文通过构建视觉-时间亲和图来捕捉视频段落间的相关性，指导线索定位。

假设-验证-精炼循环

一种动态选择锚点段落进行验证的循环过程，通过图扩散机制传播相关性，形成全局相关性分布。

该循环用于在长视频中有效定位关键线索段落，提高问答任务的准确性。

图扩散

一种通过图结构传播信息的机制，用于在稀疏观察下恢复全局语义信息。

本文利用图扩散机制传播锚点段落的相关性到未访问段落，更新全局相关性分布。

多源信息提取

从视频段落中提取多种信息源（如视觉字幕、OCR、ASR），用于验证局部相关性并计算线索分数。

在VideoDetective中，多源信息提取用于验证锚点段落的局部相关性。

稀疏采样

一种在有限计算资源下选择性观察视频段落的方法，以提高推理效率。

本文通过稀疏采样实现了在不增加计算成本的情况下恢复全局语义信息。

线索定位

在长视频中识别和定位与查询相关的关键段落的过程。

VideoDetective通过结合外部查询和内部相关性实现了高效的线索定位。

语义分解

将用户查询分解为多个语义方面，以指导锚点段落的选择和验证。

本文通过语义分解提高了线索定位的准确性，避免了盲目传播带来的噪声。

视觉语言模型 (VLM)

一种结合视觉和语言信息进行理解和推理的模型，能够在多模态任务中进行信息融合。

在本文中，VLM用于从视频段落中提取多源信息，并验证其局部相关性。

全局相关性分布

通过图扩散机制形成的段落相关性分布，用于指导关键段落的定位。

VideoDetective通过全局相关性分布实现了从稀疏观察中恢复全局语义信息。

开放问题这项研究留下的未解疑问

1 如何在不增加计算成本的情况下进一步提高长视频理解的准确性？现有方法在处理非常长的视频时，计算成本可能会增加，未来的研究可以探索更高效的推理机制。
2 如何在多模态信息不完整或不准确的情况下提高推理结果的鲁棒性？现有方法依赖于多模态信息的完整性，未来的研究可以探索更复杂的相关性评估机制。
3 如何在更大规模的视频数据集上应用VideoDetective框架？现有实验主要在中等规模的数据集上进行，未来的研究可以探索其在大规模数据集上的适应性。
4 如何优化VideoDetective在不同多模态大语言模型上的适应性？现有实验主要在特定模型上进行，未来的研究可以探索其在不同模型上的通用性。
5 如何结合更多的外部知识提高长视频理解的准确性？现有方法主要依赖于视频内部信息，未来的研究可以探索结合外部知识的可能性。

应用场景

近期应用

视频监控

VideoDetective可以用于视频监控中的异常检测，通过高效的线索定位识别潜在的安全威胁。

内容分析

在内容分析中，VideoDetective能够定位关键事件，帮助用户在长视频中快速找到所需信息。

教育视频

在教育视频中，VideoDetective可以帮助学生快速找到与学习主题相关的内容，提高学习效率。

远期愿景

智能视频编辑

未来，VideoDetective可以用于智能视频编辑，自动识别和剪辑出视频中的精彩片段。

虚拟现实

在虚拟现实中，VideoDetective可以用于实时视频分析，提供更加沉浸式的用户体验。

原文摘要

Long video understanding remains challenging for multimodal large language models (MLLMs) due to limited context windows, which necessitate identifying sparse query-relevant video segments. However, existing methods predominantly localize clues based solely on the query, overlooking the video's intrinsic structure and varying relevance across segments. To address this, we propose VideoDetective, a framework that integrates query-to-segment relevance and inter-segment affinity for effective clue hunting in long-video question answering. Specifically, we divide a video into various segments and represent them as a visual-temporal affinity graph built from visual similarity and temporal proximity. We then perform a Hypothesis-Verification-Refinement loop to estimate relevance scores of observed segments to the query and propagate them to unseen segments, yielding a global relevance distribution that guides the localization of the most critical segments for final answering with sparse observation. Experiments show our method consistently achieves substantial gains across a wide range of mainstream MLLMs on representative benchmarks, with accuracy improvements of up to 7.5% on VideoMME-long. Our code is available at https://videodetective.github.io/

cs.CV

参考文献 (20)

Qwen2.5-VL Technical Report

Shuai Bai, Keqin Chen, Xuejing Liu 等

2025 3892 引用 ⭐ 高影响力查看解读 →

Video-XL-2: Towards Very Long-Video Understanding Through Task-Aware KV Sparsification

Minghao Qin, Xiangrui Liu, Zhengyang Liang 等

2025 22 引用 ⭐ 高影响力查看解读 →

GPT-4 Technical Report

OpenAI Josh Achiam, Steven Adler, S. Agarwal 等

2023 22999 引用 ⭐ 高影响力查看解读 →

Long-VITA: Scaling Large Multi-modal Models to 1 Million Tokens with Leading Short-Context Accuracy

Yunhang Shen, Chaoyou Fu, Shaoqi Dong 等

2025 29 引用 ⭐ 高影响力查看解读 →

Video Instruction Tuning With Synthetic Data

Yuanhan Zhang, Jinming Wu, Wei Li 等

2024 260 引用 ⭐ 高影响力

Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis

Chaoyou Fu, Yuhan Dai, Yondong Luo 等

2024 1028 引用 ⭐ 高影响力查看解读 →

Towards training-free long video understanding: methods, benchmarks, and open challenges

Jingren Liu, Yun Wang, Long Zhang 等

2025 3 引用 ⭐ 高影响力

Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling

Zhe Chen, Weiyun Wang, Yue Cao 等

2024 1295 引用 ⭐ 高影响力查看解读 →

VideoAgent: A Memory-augmented Multimodal Agent for Video Understanding

Yue Fan, Xiaojian Ma, Rujie Wu 等

2024 182 引用 ⭐ 高影响力查看解读 →

Video-RAG: Visually-aligned Retrieval-Augmented Long Video Comprehension

Yongdong Luo, Xiawu Zheng, Xiao Yang 等

2024 86 引用 ⭐ 高影响力查看解读 →

Oryx MLLM: On-Demand Spatial-Temporal Understanding at Arbitrary Resolution

Zuyan Liu, Yuhao Dong, Ziwei Liu 等

2024 147 引用查看解读 →

LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding

Xiaoqian Shen, Yunyang Xiong, Changsheng Zhao 等

2024 213 引用查看解读 →

Robust Speech Recognition via Large-Scale Weak Supervision

Alec Radford, Jong Wook Kim, Tao Xu 等

2022 6438 引用查看解读 →

Adaptive Keyframe Sampling for Long Video Understanding

Xi Tang, Jihao Qiu, Lingxi Xie 等

2025 100 引用查看解读 →

VideoAgent2: Enhancing the LLM-Based Agent System for Long-Form Video Understanding by Uncertainty-Aware CoT

Zhuo Zhi, Qiangqiang Wu, Minghe Shen 等

2025 22 引用查看解读 →

VideoRAG: Retrieval-Augmented Generation over Video Corpus

Soyeong Jeong, Kangsan Kim, Jinheon Baek 等

2025 38 引用查看解读 →

Laplacian Eigenmaps for Dimensionality Reduction and Data Representation

M. Belkin, P. Niyogi

2003 8407 引用

Hybrid Hierarchical Retrieval for Open-Domain Question Answering

Manoj Ghuhan Arivazhagan, Lan Liu, Peng Qi 等

2023 18 引用

Scaling RL to Long Videos

Yukang Chen, Wei Huang, Baifeng Shi 等

2025 57 引用查看解读 →

GPT-4o System Card

OpenAI Aaron Hurst, Adam Lerer, Adam P. Goucher 等

2024 3499 引用查看解读 →

VideoDetective: Clue Hunting via both Extrinsic Query and Intrinsic Relevance for Long Video Understanding

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

多模态大语言模型 (MLLM)

视觉-时间亲和图

假设-验证-精炼循环

图扩散

多源信息提取

稀疏采样

线索定位

语义分解

视觉语言模型 (VLM)

全局相关性分布

开放问题 这项研究留下的未解疑问

应用场景

近期应用

视频监控

内容分析

教育视频

远期愿景

智能视频编辑

虚拟现实

原文摘要

参考文献 (20)

相关论文

Deployment-Aligned Low-Precision Neural Architecture Search for Spaceborne Edge AI

DeepTaxon: An Interpretable Retrieval-Augmented Multimodal Framework for Unified Species Identification and Discovery

Learn&Drop: Fast Learning of CNNs based on Layer Dropping

SS3D: End2End Self-Supervised 3D from Web Videos

PASR: Pose-Aware 3D Shape Retrieval from Occluded Single Views

A Non-Invasive Alternative to RFID: Self-Sufficient 3D Identification of Group-Housed Livestock

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问