核心发现
方法论
AdaCodec基于预测编码思想,将视频序列划分为GOP(图像组),采用自适应策略在预测误差高时插入完整参考帧(I帧),否则仅传输运动和残差信息(P帧)作为紧凑的P-token。其核心包括:1)设计MLLM导向的预测编码机制,将宏块对齐ViT的patch,利用运动向量和残差进行高效编码;2)构建双分支视觉Token化架构,包括参考帧编码器和P帧Tokenizer,兼容预训练ViT模型;3)采用两阶段训练策略,第一阶段通过特征对齐优化P-tokenizer,第二阶段进行多模态对齐,将视觉Token与语言模型结合。该方法在多项长视频和实时任务中实现了显著性能提升。
关键结果
- 在11个基准测试中,AdaCodec在视觉Token预算相同时超越Qwen3-VL-8B的每帧RGB基线,尤其在长视频任务中,使用1/7的Token预算时仍达到了比224k Token基线更优的表现,平均提升0.5-0.8分,且在Token数仅为32k时,长视频任务表现超越224k基线,显示出极高的压缩效率。
- 在降低Token成本的同时,AdaCodec大幅缩短了推理延迟,从9.26秒降至1.62秒,系统端到端延迟降低了84.7%,同时在多项任务中实现了性能提升,验证了预测性编码在长视频理解中的有效性。
- 消融实验表明,预测编码机制优于单纯的逐帧RGB编码,且宏块对齐设计和自适应GOP策略对性能提升起到了关键作用,验证了方法的设计合理性和鲁棒性。
研究意义
该研究突破了视频多模态大模型在长视频处理中的瓶颈,提出了基于预测编码的视觉表示新范式,有效缓解了传统逐帧编码带来的Token爆炸问题。其在节省计算资源、降低延迟的同时,保持甚至提升了模型的理解能力,为未来长视频智能分析、实时交互等应用提供了技术基础。这不仅推动了视频理解技术的边界,也为多模态模型的高效部署开辟了新路径,具有深远的学术和产业价值。
技术贡献
AdaCodec的主要技术创新在于:1)提出面向MLLM的预测性视觉编码机制,将参考帧与运动残差结合,显著减少冗余信息;2)设计了兼容预训练ViT的双分支Token化架构,实现高效的视觉特征表达;3)引入自适应GOP策略,根据预测误差动态调整参考帧插入时机,提高编码效率和模型性能;4)通过两阶段训练策略,确保视觉编码与多模态任务的良好对齐。该方法在保持较低Token预算的同时,显著提升了长视频理解的准确率和响应速度。
新颖性
本研究首次将预测编码思想系统引入视频MLLM的视觉接口,区别于传统的逐帧编码或静态压缩方法。其创新点在于:将视频编码与大模型的推理需求紧密结合,设计了MLLM导向的预测性码流,突破了标准视频编码的重建导向限制,充分利用视频的时序冗余,实现极端压缩与高效推理的统一。这一设计在长视频理解和实时应用中展现出前所未有的优势,标志着多模态视频理解技术的重大突破。
局限性
- 当前方法依赖运动估计的准确性,复杂场景或快速运动可能导致预测误差增加,从而频繁插入参考帧,影响压缩效果。
- 在极端压缩比例下(如Token极度稀疏),模型性能可能下降,尤其在细节丰富或高动态场景中表现有限。
- 训练和推理过程中对硬件资源的需求较高,尤其是在多模态对齐和GOP自适应策略的实现上,存在一定的计算成本。
未来方向
未来的研究方向包括:1)引入更先进的运动估计和残差编码技术,提升预测精度;2)探索多尺度、多模态融合策略,增强模型对复杂场景的适应能力;3)优化训练流程,降低硬件依赖,推动模型在边缘设备上的部署;4)结合自监督学习,进一步提升模型的泛化能力和鲁棒性。此外,还可扩展到多模态任务中的视频生成、增强和交互应用,推动长视频智能理解的广泛应用。
AI 总览摘要
在当今多模态大模型快速发展的背景下,视频理解面临着前所未有的挑战。传统方法依赖逐帧编码,导致Token数量爆炸,严重制约模型的长视频处理能力。本文提出了AdaCodec,一种基于预测编码思想的视觉接口创新,为视频MLLM带来了革命性的突破。
AdaCodec的核心思想是:利用视频的时序冗余,通过自适应策略在预测误差高时插入完整参考帧(I帧),否则仅传输运动和残差信息(P帧)作为紧凑的P-token。这一机制极大地减少了冗余信息的传递,提高了编码效率。具体实现中,设计了MLLM导向的预测码流,将宏块对齐ViT的patch,利用运动向量和残差进行高效编码,构建了双分支视觉Token化架构,包括参考帧编码器和P帧Tokenizer,兼容预训练ViT模型。
训练方面,采用两阶段策略:第一阶段通过特征对齐优化P-tokenizer,第二阶段进行多模态对齐,将视觉Token与语言模型结合。实验结果显示,AdaCodec在11个长视频和实时任务中表现优异。在视觉Token预算相同时,超越了传统逐帧RGB编码的基线,尤其在长视频任务中,使用1/7的Token预算仍实现性能提升,平均提升0.5-0.8分,Token数仅为32k时,长视频表现超越224k基线。此外,系统延迟也大幅降低,推理时间从9.26秒降至1.62秒,系统端到端延迟降低84.7%。
这些成果表明,预测性编码不仅在压缩效率上具有优势,更在模型理解能力和响应速度上实现了质的飞跃。该方法的创新设计为未来长视频理解、实时交互等应用提供了坚实的技术基础,也为多模态模型的高效部署开辟了新路径。未来,结合更精细的运动估计、多尺度融合和自监督学习,AdaCodec有望在更复杂场景中展现更强的适应性和鲁棒性,推动视频理解技术迈向新的高度。
深度分析
研究背景
随着多模态大模型在视觉和语言任务中的崛起,视频理解成为研究热点。早期工作如VideoBERT、Video-LLaMA等,主要采用逐帧RGB编码方式,面临Token爆炸和延迟问题。近年来,研究者开始探索压缩感知、运动估计和编码优化技术,如HEVC、AV1等标准视频编码器被引入到模型中,用于提取运动向量和残差信息,提升效率。部分工作如CoViAR、DMC-Net利用运动和残差进行动作识别,取得一定成功。最近,Codec-aware方法如EMA、ReMoRa尝试将编码结构与MLLM结合,但大多仍以标准编码流为基础,重在学习解码或特征融合。尽管如此,现有方法在长视频处理、实时响应方面仍存在瓶颈,主要源于逐帧编码带来的冗余和高延迟问题。
核心问题
核心问题在于:如何设计一种视觉表示,使得视频的时序冗余得到充分利用,同时满足多模态大模型对高效、低延迟的需求。传统逐帧编码在长视频中导致Token数量迅速膨胀,限制了模型的理解深度和响应速度。现有压缩技术多偏重于重建质量,缺乏针对MLLM的优化,难以兼顾效率与表达能力。此外,标准视频编码的残差和运动信息未能直接服务于模型推理,导致信息传递效率低下。解决这一问题需要从编码机制、模型接口和训练策略等多方面入手,设计出符合MLLM需求的预测性视觉编码方案。
核心创新
本研究的创新点主要包括:1)提出面向MLLM的预测性视觉编码机制,将完整参考帧与运动残差结合,极大降低冗余信息;2)设计了宏块对齐的P-tokenizer,兼容预训练ViT模型,实现高效视觉特征表达;3)引入自适应GOP策略,根据预测误差动态调整参考帧插入频率,优化编码效率;4)采用两阶段训练流程,确保视觉编码与多模态任务的良好对齐。这些创新实现了在极低Token预算下的长视频理解性能突破,显著优于传统逐帧编码方案。
方法详解
- �� 采用GOP(图像组)结构,将视频划分为I帧和P帧,I帧作为完整参考,P帧通过运动向量和残差进行预测。
- �� 在宏块级别进行运动估计,搜索参考帧中的匹配块,计算运动向量和残差,形成紧凑的P-token。
- �� 设计自适应GOP策略,根据预测误差动态插入参考帧(I帧),避免固定长度带来的效率损失。
- �� 构建双分支Token化架构,包括参考帧编码器(EI)和P帧Tokenizer(EP),兼容预训练ViT模型,利用运动和残差信息生成视觉Token。
- �� 采用两阶段训练:第一阶段通过特征对齐优化P-tokenizer,第二阶段进行多模态对齐,将视觉Token融入语言模型。
- �� 在训练中引入辅助预测器,确保P-token的表达能力,优化编码质量。
- �� 在推理中,根据内容变化自适应调整GOP结构,实现高效压缩和快速响应。
实验设计
- �� 采用包括MLVU、LongVideoBench、LVBench等长视频基准,以及TempCompass、MotionBench、TOMATO等时间序列任务,验证模型在多场景下的表现。
- �� 训练过程中,使用不同Token预算(如32k、64k、128k、224k)进行对比,评估性能变化。
- �� 采用标准指标如准确率、时间到首Token(TTFT)、端到端延迟(E2EL)等,全面衡量效率与效果。
- �� 通过消融实验验证宏块对齐、GOP策略、训练阶段对性能的贡献。
- �� 进行内容依赖性分析,观察不同视频类别对GOP长度和预测效果的影响。
结果分析
- �� 在相同Token预算下,AdaCodec在所有长视频任务中均优于逐帧RGB基线,尤其在使用1/7 Token时,性能仍超越224k基线,提升0.5-0.8分。
- �� 在Token预算相同时,AdaCodec实现了延迟的极大缩短,推理时间从9.26秒降至1.62秒,系统整体响应速度提升了5倍以上。
- �� 消融实验显示,预测性编码机制明显优于单纯的逐帧编码,宏块对齐和自适应GOP策略对性能提升起到关键作用。
- �� 在不同视频类别中,AdaCodec能够保持较长的预测链,显著提升长视频理解的连续性和准确性。
应用场景
- �� 该技术可应用于长视频内容分析、视频问答、自动字幕生成等场景,尤其适合需要实时响应和大规模视频处理的应用。
- �� 结合边缘计算设备,可以实现低延迟、高效率的视频理解,为智能监控、自动驾驶、虚拟现实等行业提供技术支撑。
- �� 长远来看,AdaCodec的预测编码思想可推广到视频生成、增强和交互等多模态任务中,推动智能视频系统的智能化升级。
局限与展望
- �� 预测误差在复杂场景或高速运动中可能导致频繁插入参考帧,影响压缩效率。
- �� 在极端压缩比例下,模型在细节丰富或动态场景中的表现仍有限。
- �� 训练和推理对硬件资源要求较高,尤其是在多模态对齐和GOP自适应策略的实现上,存在一定的计算成本。未来需优化算法和硬件适配,以实现更广泛的应用。
通俗解读 非专业人士也能看懂
想象你在看一本长长的漫画书,每一页都画着不同的场景,但很多页面内容都差不多,比如背景、人物位置等。传统的方法就像是逐页都把全部内容都重新画一遍,不仅费时间,还会让书变得很大很慢。而AdaCodec的方法就像是:只在场景变化很大时,才画出完整的页面;平时只画一些变化的部分,比如人物移动了多少、背景有了什么不同。这样一来,漫画书就变得更薄、更快看完,而且还能记住每个场景的重点。它用一种聪明的方式,把视频中的内容压缩得很厉害,只在必要时才“重画”完整内容,平时只传递变化部分。这样,电脑理解视频就像看这本聪明的漫画书一样,既快又准。
简单解释 像给14岁少年讲一样
想象你在用手机看一段长视频,就像在看一部电影。传统的方法就像是每一秒都把画面都拍下来,然后全部存起来,这样文件就很大,手机也会变得很慢。而AdaCodec就像是:只在画面变化特别大,比如有人跑起来或车开过时,才拍一张完整的画面;平时只记录一些运动的轨迹和微小的变化,比如人物走动、背景变动。这样一来,视频文件变得很小,手机也能更快地加载和理解内容。它用一种聪明的“预测”方法,把视频的内容压缩得更厉害,但又能让电脑理解得跟完整视频一样清楚。这就像你用脑袋猜猜下一秒会发生什么,只在猜错或变化大时才需要额外信息,平时都用自己已有的记忆来推断。这种方法让视频变得更快、更省资源,还能让电脑更聪明地理解视频内容。
原文摘要
Video is temporally redundant: adjacent frames usually share most objects, background, and layout. Yet existing video multimodal large language models (video MLLMs) usually encode each sampled frame as an independent RGB image, causing visual tokens to repeat content already present in earlier frames. This suggests a more direct video interface: send a full reference frame only when the scene cannot be predicted well from prior context, and otherwise transmit a compact description of inter-frame changes. We call this interface a \emph{predictive visual code}, and instantiate it for video MLLMs as \textbf{AdaCodec}. AdaCodec spends full visual tokens on a reference frame only when its conditional predictive cost is high; otherwise, it encodes inter-frame changes, including motion and prediction residuals, as compact P-tokens. Across all eleven benchmarks, AdaCodec improves over the Qwen3-VL-8B per-frame RGB baseline at a matched visual-token budget. Even at $1/7$ the budget, AdaCodec with 32k tokens surpasses the 224k baseline on all long-video benchmarks; on five general-video benchmarks, it raises the average score while substantially cutting time-to-first-token from 9.26s to 1.62s.
参考文献 (20)
Mdp3: a Training-Free Approach for List-Wise Frame Selection in Video-Llms
Hui Sun, Shiyin Lu, Huan Wang 等
Adaptive Keyframe Sampling for Long Video Understanding
Xi Tang, Jihao Qiu, Lingxi Xie 等
LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models
Kaichen Zhang, Bo Li, Peiyuan Zhang 等
PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding
J. Cho, Andrea Madotto, E. Mavroudi 等
YaRN: Efficient Context Window Extension of Large Language Models
Bowen Peng, Jeffrey Quesnelle, Honglu Fan 等
MotionBench: Benchmarking and Improving Fine-Grained Video Motion Understanding for Vision Language Models
Wenyi Hong, Yean Cheng, Zhuoyi Yang 等
OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal Intelligence
Feilong Tang, Xiang An, Yu Yan 等
OneThinker: All-in-one Reasoning Model for Image and Video
Kaituo Feng, Manyuan Zhang, Hongyu Li 等
MLVU: Benchmarking Multi-task Long Video Understanding
Junjie Zhou, Yan Shu, Bo Zhao 等
Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution
Peng Wang, Shuai Bai, Sinan Tan 等
Accelerating Video Object Segmentation with Compressed Video
Kai-yu Xu, Angela Yao
Video-R1: Reinforcing Video Reasoning in MLLMs
Kaituo Feng, Kaixiong Gong, Bohao Li 等
Predictive coding in the visual cortex: a functional interpretation of some extra-classical receptive-field effects.
Rajesh P. N. Rao, D. Ballard
Overview of the H.264/AVC video coding standard
T. Wiegand, G. Sullivan, G. Bjøntegaard 等
Chat-UniVi: Unified Visual Representation Empowers Large Language Models with Image and Video Understanding
Peng Jin, Ryuichi Takanobu, Caiwan Zhang 等
TempCompass: Do Video LLMs Really Understand Videos?
Yuanxin Liu, Shicheng Li, Yi Liu 等
TGIF-QA: Toward Spatio-Temporal Reasoning in Visual Question Answering
Y. Jang, Yale Song, Youngjae Yu 等