Unified Spatio-Temporal Token Scoring for Efficient Video VLMs

TL;DR

提出Spatio-Temporal Token Scoring (STTS)，在不影响性能的情况下提高视频视觉语言模型效率62%。

cs.CV 🔴 高级 2026-03-19 52 次浏览

Jianrui Zhang Yue Yang Rohun Tripathi Winson Han Ranjay Krishna Christopher Clark Yong Jae Lee Sangho Lee

视觉语言模型视频处理令牌剪枝计算效率时空分析

核心发现

方法论

本文提出了一种名为Spatio-Temporal Token Scoring (STTS)的轻量级模块，旨在通过统一的时空令牌评分机制来剪枝视觉令牌。STTS在视觉变换器（ViT）和大语言模型（LLM）中同时进行令牌剪枝，而无需文本条件或令牌合并。通过辅助损失学习时间维度上的评分，以及通过LLM下游梯度学习空间维度上的评分，STTS可以在整个架构中剪枝50%的视觉令牌。

关键结果

STTS在13个短视频和长视频问答任务中实现了62%的效率提升，而平均性能仅下降0.7%。在长视频问答中，应用测试时扩展可以进一步提高0.5-1%的性能。
在实验中，STTS在50%的令牌剪枝率下，模型性能仅下降0.7%，显示出其在不同任务上的稳定性和鲁棒性。
通过邻近帧余弦相似度的辅助损失，STTS能够有效识别并剪枝冗余的时间帧，从而在长视频理解中实现显著的计算加速。

研究意义

STTS的提出为视频视觉语言模型的计算效率提升提供了一种全新的解决方案。通过在不显著影响模型性能的情况下大幅减少计算负担，STTS为学术界和工业界在处理长视频任务时提供了更高效的工具。它解决了现有方法中在处理跨帧时间冗余时的不足，使得视频处理任务更具可扩展性。

技术贡献

STTS的技术贡献在于其无需复杂的文本条件选择或令牌合并算法，直接在ViT和LLM中进行令牌剪枝。这种方法不仅简化了架构，还通过引入辅助损失和下游梯度学习实现了更高效的令牌评分机制。此外，STTS的高效打包算法进一步优化了计算资源的利用。

新颖性

STTS首次实现了在整个架构中统一的视觉令牌剪枝，而无需依赖复杂的文本条件或合并算法。与现有方法相比，STTS通过简单的模块设计和创新的评分机制，显著提升了视频处理任务的计算效率。

局限性

STTS在处理极长视频时可能仍存在计算瓶颈，特别是在需要处理大量帧的情况下。
虽然STTS在大多数任务中表现良好，但在某些特定任务中可能需要进一步优化参数以达到最佳性能。
STTS的性能在极端剪枝率下可能会显著下降，这需要在实际应用中进行权衡。

未来方向

未来的研究方向可以包括优化STTS在极长视频中的性能，以及探索其在其他多模态任务中的应用。此外，进一步研究如何结合其他剪枝技术以实现更高效的计算资源利用也是一个值得探索的方向。

AI 总览摘要

近年来，视觉语言模型（VLMs）在视频理解领域取得了显著进展，但其计算成本也随之增加。处理视频需要对大量帧进行编码，每帧又被视觉变换器（ViT）分解为数百个补丁令牌。随着帧数的增加，令牌序列在注意力机制下的计算成本呈二次增长，导致显著的内存使用、训练吞吐量降低和推理延迟增加。

现有的剪枝方法仅解决了部分问题。ViT前和ViT内的方法在ViT编码之前或期间减少令牌冗余，采用早期退出、令牌匹配和混合、基于注意力的评分等策略。虽然这些方法对单模态感知任务中的空间冗余有效，但并未专门为多模态VLM目标设计，也未考虑视频输入中的跨帧时间冗余。

在实验中，STTS在13个短视频和长视频问答任务中实现了62%的效率提升，而平均性能仅下降0.7%。在长视频问答中，应用测试时扩展可以进一步提高0.5-1%的性能。STTS的提出为视频视觉语言模型的计算效率提升提供了一种全新的解决方案。

STTS的技术贡献在于其无需复杂的文本条件选择或令牌合并算法，直接在ViT和LLM中进行令牌剪枝。这种方法不仅简化了架构，还通过引入辅助损失和下游梯度学习实现了更高效的令牌评分机制。此外，STTS的高效打包算法进一步优化了计算资源的利用。未来的研究方向可以包括优化STTS在极长视频中的性能，以及探索其在其他多模态任务中的应用。

深度分析

研究背景

视觉语言模型（VLMs）近年来在视频理解领域取得了显著进展，但其计算成本也随之增加。处理视频需要对大量帧进行编码，每帧又被视觉变换器（ViT）分解为数百个补丁令牌。随着帧数的增加，令牌序列在注意力机制下的计算成本呈二次增长，导致显著的内存使用、训练吞吐量降低和推理延迟增加。现有的剪枝方法仅解决了部分问题。ViT前和ViT内的方法在ViT编码之前或期间减少令牌冗余，采用早期退出、令牌匹配和混合、基于注意力的评分等策略。虽然这些方法对单模态感知任务中的空间冗余有效，但并未专门为多模态VLM目标设计，也未考虑视频输入中的跨帧时间冗余。

核心问题

视频视觉语言模型在处理长视频任务时面临计算效率的挑战。现有的方法在处理跨帧时间冗余时存在不足，导致计算成本高昂。如何在不显著影响模型性能的情况下减少计算负担，成为一个亟待解决的问题。

核心创新

方法详解

�� STTS模块设计：在ViT和LLM中同时进行令牌剪枝，无需文本条件或令牌合并。
�� 时间维度评分：通过辅助损失学习时间维度上的评分。
�� 空间维度评分：通过LLM下游梯度学习空间维度上的评分。
�� 高效打包算法：优化计算资源的利用。

实验设计

实验在13个短视频和长视频问答任务中进行，评估STTS的效率提升和性能影响。通过对比不同剪枝率下的模型性能，验证STTS的稳定性和鲁棒性。实验结果表明，STTS在50%的令牌剪枝率下，模型性能仅下降0.7%。

结果分析

STTS在13个短视频和长视频问答任务中实现了62%的效率提升，而平均性能仅下降0.7%。在长视频问答中，应用测试时扩展可以进一步提高0.5-1%的性能。通过邻近帧余弦相似度的辅助损失，STTS能够有效识别并剪枝冗余的时间帧，从而在长视频理解中实现显著的计算加速。

应用场景

STTS可以直接应用于需要高效视频处理的场景，如视频监控、视频问答系统等。通过减少计算负担，STTS可以在不影响性能的情况下显著提高处理效率。

局限与展望

STTS在处理极长视频时可能仍存在计算瓶颈，特别是在需要处理大量帧的情况下。虽然STTS在大多数任务中表现良好，但在某些特定任务中可能需要进一步优化参数以达到最佳性能。STTS的性能在极端剪枝率下可能会显著下降，这需要在实际应用中进行权衡。

通俗解读非专业人士也能看懂

想象你在一个繁忙的厨房里，厨师需要快速准备一顿大餐。每个厨师都有一堆食材（就像视频中的帧），但并不是每个食材都需要用到。为了提高效率，厨师们需要决定哪些食材是必需的，哪些可以省略。STTS就像一个聪明的助手，它帮助厨师们快速识别出那些不太重要的食材（冗余的帧），从而节省时间和精力。通过这种方式，厨房可以在不影响菜品质量的情况下，更快地完成工作。STTS在视频处理中扮演了类似的角色，它通过智能的令牌剪枝机制，帮助模型在不影响性能的情况下，更高效地处理视频数据。

简单解释像给14岁少年讲一样

嘿，小伙伴们！想象一下你在玩一个超酷的游戏，你的任务是整理一个超级混乱的房间。房间里有太多东西，你需要快速决定哪些东西是重要的，哪些可以暂时放一边。STTS就像是你的超级助手，它能帮你快速识别那些不太重要的东西，让你更快地完成任务！这就像在视频处理中，STTS帮助模型更快地找到重要的信息，而不需要处理所有的细节。这样一来，模型就能更快、更高效地完成任务，就像你在游戏中更快地整理好房间一样！

术语表

视觉语言模型 (Vision-Language Model)

视觉语言模型是一种结合视觉和语言信息的模型，能够理解和生成多模态数据。

在本文中，VLMs用于视频理解任务。

视觉变换器 (Vision Transformer)

视觉变换器是一种基于自注意力机制的神经网络架构，用于处理视觉数据。

本文使用ViT来分解视频帧为补丁令牌。

大语言模型 (Large Language Model)

大语言模型是一种能够处理和生成自然语言的深度学习模型，通常具有大量参数。

在本文中，LLM用于处理ViT的输出。

令牌剪枝 (Token Pruning)

令牌剪枝是一种减少模型计算负担的方法，通过选择性地丢弃不重要的令牌。

STTS通过令牌剪枝提高模型效率。

时空令牌评分 (Spatio-Temporal Token Scoring)

STTS是一种评分机制，用于在时空维度上评估和剪枝视觉令牌。

本文提出了STTS来提高视频处理的效率。

辅助损失 (Auxiliary Loss)

辅助损失是一种用于训练模型的额外损失函数，帮助模型学习特定任务。

在STTS中，辅助损失用于学习时间维度上的评分。

下游梯度 (Downstream Gradients)

下游梯度是从模型最终任务损失中反向传播的梯度信息，用于调整模型参数。

STTS利用下游梯度学习空间维度上的评分。

高效打包算法 (Efficient Packing Algorithm)

高效打包算法是一种优化计算资源利用的方法，通过重新组织数据以减少计算负担。

STTS使用高效打包算法来优化计算资源。

邻近帧余弦相似度 (Neighboring-Frame Cosine Similarity)

邻近帧余弦相似度是一种度量相邻帧之间相似度的方法，帮助识别冗余信息。

STTS使用邻近帧余弦相似度作为辅助损失。

测试时扩展 (Test-Time Scaling)

测试时扩展是一种在推理时调整模型输入规模的方法，以提高性能。

在长视频问答中，STTS通过测试时扩展提高性能。

开放问题这项研究留下的未解疑问

1 如何进一步优化STTS在极长视频中的性能？目前的方法在处理大量帧时可能仍存在计算瓶颈，需要探索更高效的剪枝策略。
2 STTS在其他多模态任务中的应用潜力如何？需要进一步研究其在不同任务中的适用性和性能表现。
3 如何结合其他剪枝技术以实现更高效的计算资源利用？现有的STTS方法虽然有效，但仍有改进空间。
4 在极端剪枝率下，如何保证模型性能不显著下降？需要探索更智能的剪枝策略以平衡效率和性能。
5 如何在不影响模型性能的情况下进一步减少计算负担？需要研究更先进的剪枝和优化技术。

应用场景

近期应用

视频监控

STTS可以用于提高视频监控系统的处理效率，通过减少计算负担来实现更快速的实时监控。

视频问答系统

在视频问答系统中，STTS可以帮助模型更快地处理和理解视频内容，从而提高响应速度。

视频编辑

STTS可以用于视频编辑软件中，通过智能剪枝来加速视频处理和渲染过程。

远期愿景

智能交通系统

STTS可以应用于智能交通系统中，通过高效的视频处理来实现更智能的交通管理和监控。

虚拟现实

在虚拟现实应用中，STTS可以帮助提高视频渲染的效率，从而提供更流畅的用户体验。

原文摘要

Token pruning is essential for enhancing the computational efficiency of vision-language models (VLMs), particularly for video-based tasks where temporal redundancy is prevalent. Prior approaches typically prune tokens either (1) within the vision transformer (ViT) exclusively for unimodal perception tasks such as action recognition and object segmentation, without adapting to downstream vision-language tasks; or (2) only within the LLM while leaving the ViT output intact, often requiring complex text-conditioned token selection mechanisms. In this paper, we introduce Spatio-Temporal Token Scoring (STTS), a simple and lightweight module that prunes vision tokens across both the ViT and the LLM without text conditioning or token merging, and is fully compatible with end-to-end training. By learning how to score temporally via an auxiliary loss and spatially via LLM downstream gradients, aided by our efficient packing algorithm, STTS prunes 50% of vision tokens throughout the entire architecture, resulting in a 62% improvement in efficiency during both training and inference with only a 0.7% drop in average performance across 13 short and long video QA tasks. Efficiency gains increase with more sampled frames per video. Applying test-time scaling for long-video QA further yields performance gains of 0.5-1% compared to the baseline. Overall, STTS represents a novel, simple yet effective technique for unified, architecture-wide vision token pruning.

cs.CV cs.AI cs.LG

参考文献 (20)

Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding

Christopher Clark, Jieyu Zhang, Zixian Ma 等

2026 22 引用 ⭐ 高影响力查看解读 →

MMIU: Multimodal Multi-image Understanding for Evaluating Large Vision-Language Models

Fanqing Meng, Jin Wang, Chuanhao Li 等

2024 53 引用查看解读 →

ChartQA: A Benchmark for Question Answering about Charts with Visual and Logical Reasoning

Ahmed Masry, Do Xuan Long, J. Tan 等

2022 1290 引用查看解读 →

Qwen3 Technical Report

An Yang, Anfeng Li, Baosong Yang 等

2025 3706 引用查看解读 →

A Diagram is Worth a Dozen Images

Aniruddha Kembhavi, M. Salvato, Eric Kolve 等

2016 853 引用查看解读 →

Video-XL-Pro: Reconstructive Token Compression for Extremely Long Video Understanding

Xiangrui Liu, Yan Shu, Zheng Liu 等

2025 37 引用查看解读 →

MVBench: A Comprehensive Multi-modal Video Understanding Benchmark

Kunchang Li, Yali Wang, Yinan He 等

2023 972 引用查看解读 →

VLTP: Vision-Language Guided Token Pruning for Task-Oriented Segmentation

Hanning Chen, Yang Ni, Wenjun Huang 等

2024 11 引用查看解读 →

MuirBench: A Comprehensive Benchmark for Robust Multi-image Understanding

Fei Wang, Xingyu Fu, James Y. Huang 等

2024 133 引用查看解读 →

Multi-Granular Spatio-Temporal Token Merging for Training-Free Acceleration of Video LLMs

Jeongseok Hyun, Sukjun Hwang, Su Ho Han 等

2025 18 引用查看解读 →

VCM: Vision Concept Modeling Based on Implicit Contrastive Learning with Vision-Language Instruction Fine-Tuning

Run Luo, Renke Shan, Longze Chen 等

2025 4 引用查看解读 →

MMMU: A Massive Multi-Discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI

Xiang Yue, Yuansheng Ni, Kai Zhang 等

2023 1869 引用查看解读 →

DocVQA: A Dataset for VQA on Document Images

Minesh Mathew, Dimosthenis Karatzas, R. Manmatha 等

2020 1245 引用查看解读 →

Towards VQA Models That Can Read

Amanpreet Singh, Vivek Natarajan, Meet Shah 等

2019 1889 引用查看解读 →

TempCompass: Do Video LLMs Really Understand Videos?

Yuanxin Liu, Shicheng Li, Yi Liu 等

2024 249 引用查看解读 →

Visual Instruction Tuning

Haotian Liu, Chunyuan Li, Qingyang Wu 等

2023 8483 引用查看解读 →

MLVU: Benchmarking Multi-task Long Video Understanding

Junjie Zhou, Yan Shu, Bo Zhao 等

2024 129 引用查看解读 →

MathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Contexts

Pan Lu, Hritik Bansal, Tony Xia 等

2023 1345 引用查看解读 →

PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding

Jang Hyun Cho, Andrea Madotto, E. Mavroudi 等

2025 55 引用查看解读 →

Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering

Yash Goyal, Tejas Khot, D. Summers-Stay 等

2016 4016 引用查看解读 →

Unified Spatio-Temporal Token Scoring for Efficient Video VLMs

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

视觉语言模型 (Vision-Language Model)

视觉变换器 (Vision Transformer)

大语言模型 (Large Language Model)

令牌剪枝 (Token Pruning)

时空令牌评分 (Spatio-Temporal Token Scoring)

辅助损失 (Auxiliary Loss)

下游梯度 (Downstream Gradients)

高效打包算法 (Efficient Packing Algorithm)

邻近帧余弦相似度 (Neighboring-Frame Cosine Similarity)

测试时扩展 (Test-Time Scaling)

开放问题 这项研究留下的未解疑问

应用场景

近期应用

视频监控

视频问答系统

视频编辑

远期愿景

智能交通系统

虚拟现实

原文摘要

参考文献 (20)

相关论文

Deployment-Aligned Low-Precision Neural Architecture Search for Spaceborne Edge AI

DeepTaxon: An Interpretable Retrieval-Augmented Multimodal Framework for Unified Species Identification and Discovery

Learn&Drop: Fast Learning of CNNs based on Layer Dropping

SS3D: End2End Self-Supervised 3D from Web Videos

PASR: Pose-Aware 3D Shape Retrieval from Occluded Single Views

A Non-Invasive Alternative to RFID: Self-Sufficient 3D Identification of Group-Housed Livestock

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问