EVATok: Adaptive Length Video Tokenization for Efficient Visual Autoregressive Generation

TL;DR

EVATok通过自适应长度视频标记化实现高效视觉自回归生成，平均节省24.4%标记。

cs.CV 🔴 高级 2026-03-13 13 次浏览

Tianwei Xiong Jun Hao Liew Zilong Huang Zhijie Lin Jiashi Feng Xihui Liu

AI 阅读器 Arxiv 原文下载 PDF

视频生成自回归模型标记化深度学习计算机视觉

核心发现

方法论

EVATok通过自适应视频标记化框架优化标记分配，采用轻量级路由器预测标记分配，并通过视频语义编码器增强训练。该方法包括四个阶段：训练代理标记器、创建数据集训练路由器、训练轻量级路由器、在路由器分配下训练最终标记器。

关键结果

在UCF-101数据集上，EVATok在视频重建和类到视频生成中表现出色，标记使用量节省至少24.4%。
与固定长度基线相比，EVATok在视频重建质量和生成效率上均有显著提升。
在WebVid-10M数据集上，EVATok的路由器指导的标记器在LPIPS和rFVD指标上表现优异，节省29.6%的标记长度。

研究意义

EVATok在视频生成领域具有重要意义，解决了传统视频标记化中标记分配不均的问题，提高了视频重建质量和生成效率。其自适应标记化策略为视频生成模型提供了新的思路，尤其是在处理复杂动态视频时，能够更好地分配计算资源。

技术贡献

EVATok通过引入自适应标记化框架和轻量级路由器，实现了标记分配的优化。与现有方法相比，EVATok在标记使用效率和视频生成质量上均有显著提升，提供了新的工程可能性和理论保证。

新颖性

EVATok首次实现了基于内容的自适应视频标记化，突破了传统固定长度标记化的限制。相比于现有方法，EVATok能够根据视频内容的复杂性动态调整标记分配，显著提高了标记使用效率。

局限性

EVATok在处理极端复杂或简单的视频时可能表现不佳，因为标记分配的预测可能不够精确。
在训练过程中需要大量计算资源，可能不适合资源有限的场景。
对标记分配的依赖可能导致在某些情况下的性能波动。

未来方向

未来的研究可以集中在进一步优化标记分配预测的精度，以及探索EVATok在其他视频生成任务中的应用。此外，可以研究如何降低计算资源的需求，使其在更广泛的场景中应用。

AI 总览摘要

在视频生成领域，传统的自回归模型依赖于固定长度的标记序列，这种方法在处理动态复杂的视频时效率不高。EVATok通过引入自适应长度的视频标记化框架，解决了这一问题。该框架通过轻量级路由器预测每个视频的最佳标记分配，实现了标记使用效率和视频生成质量的平衡。EVATok在UCF-101数据集上的实验结果表明，与现有最先进的方法相比，标记使用量节省了至少24.4%。

EVATok的核心技术包括代理标记器的训练、数据集的创建和路由器的训练。代理标记器用于评估不同标记分配下的视频重建质量，而路由器则通过分类任务预测最佳标记分配。最终的自适应标记器在路由器预测的分配下进行训练，从而实现了自适应长度的视频标记化。

实验结果显示，EVATok在视频重建和生成任务中均表现出色，尤其是在处理复杂动态视频时，能够更好地分配计算资源，提高了生成效率和质量。与传统方法相比，EVATok在标记使用效率和视频生成质量上均有显著提升。

EVATok的自适应标记化策略为视频生成模型提供了新的思路，解决了传统视频标记化中标记分配不均的问题。其在视频生成领域的应用潜力巨大，尤其是在需要高效处理复杂动态视频的场景中。

然而，EVATok在处理极端复杂或简单的视频时可能表现不佳，因为标记分配的预测可能不够精确。此外，训练过程中需要大量计算资源，可能不适合资源有限的场景。未来的研究可以集中在进一步优化标记分配预测的精度，以及探索EVATok在其他视频生成任务中的应用。

深度分析

研究背景

视频生成技术近年来取得了显著进展，尤其是在自回归模型的推动下。自回归模型通过将视频像素压缩为离散标记序列，实现了视频的高效生成。然而，传统的视频标记化方法通常采用固定长度的标记分配，这在处理不同复杂度的视频时效率不高。现有方法如LARP和AdapTok虽然在一定程度上实现了自适应标记化，但其标记分配策略仍然存在不足，无法充分利用视频内容的复杂性。

核心问题

传统的视频标记化方法在处理复杂动态视频时效率不高，因为它们通常采用固定长度的标记分配。这种方法在简单、静态或重复的视频片段上浪费了标记，而在动态或复杂的片段上则分配不足，导致重建质量和生成效率的下降。如何根据视频内容的复杂性动态调整标记分配，实现标记使用效率和视频生成质量的平衡，是一个亟待解决的问题。

核心创新

EVATok通过引入自适应长度的视频标记化框架，解决了传统方法中标记分配不均的问题。其核心创新包括：1) 轻量级路由器的引入，用于快速预测最佳标记分配；2) 代理标记器的训练，用于评估不同标记分配下的视频重建质量；3) 自适应标记器的训练，在路由器预测的分配下实现自适应长度的视频标记化。这些创新使得EVATok能够根据视频内容的复杂性动态调整标记分配，显著提高了标记使用效率。

方法详解

�� 训练代理标记器：用于评估不同标记分配下的视频重建质量。

�� 创建数据集：通过代理标记器评估不同标记分配的质量，创建用于训练路由器的数据集。

�� 训练轻量级路由器：通过分类任务预测最佳标记分配。

�� 训练最终自适应标记器：在路由器预测的分配下进行训练，实现自适应长度的视频标记化。

实验设计

实验在UCF-101和WebVid-10M数据集上进行，评估EVATok在视频重建和生成任务中的表现。实验设计包括：1) 使用代理标记器评估不同标记分配的质量；2) 通过路由器预测最佳标记分配；3) 在路由器预测的分配下训练最终标记器。实验结果表明，EVATok在标记使用效率和视频生成质量上均有显著提升。

结果分析

实验结果显示，EVATok在UCF-101数据集上的视频重建和类到视频生成任务中表现优异，标记使用量节省至少24.4%。在WebVid-10M数据集上，EVATok的路由器指导的标记器在LPIPS和rFVD指标上表现优异，节省29.6%的标记长度。与传统固定长度标记化方法相比，EVATok在标记使用效率和视频生成质量上均有显著提升。

应用场景

EVATok在视频生成领域具有广泛的应用前景，尤其是在需要高效处理复杂动态视频的场景中。其自适应标记化策略可以应用于视频重建、类到视频生成、帧预测等任务，提高生成效率和质量。

局限与展望

尽管EVATok在视频生成任务中表现出色，但在处理极端复杂或简单的视频时可能表现不佳，因为标记分配的预测可能不够精确。此外，训练过程中需要大量计算资源，可能不适合资源有限的场景。未来的研究可以集中在进一步优化标记分配预测的精度，以及探索EVATok在其他视频生成任务中的应用。

通俗解读非专业人士也能看懂

想象一下你在厨房里做饭。传统的视频生成就像是按照固定的食谱做菜，不管食材的多少和种类，都是用同样的步骤和时间。这样做虽然简单，但可能会浪费资源，或者做出来的菜不够美味。EVATok就像是一个聪明的厨师，根据食材的不同调整烹饪时间和步骤。比如，处理复杂的食材时，它会花更多的时间和精力，而对于简单的食材，它会快速完成。这样不仅节省了资源，还能保证每道菜的质量。这种方法在视频生成中同样适用，通过动态调整标记分配，提高了生成效率和质量。

简单解释像给14岁少年讲一样

想象你在玩一个视频游戏。传统的视频生成就像是每次都用同样的策略去打怪，不管怪物的强弱，都是用同样的武器和技能。这种方法虽然简单，但可能会浪费资源，或者打不过强大的怪物。EVATok就像是一个聪明的玩家，根据怪物的不同调整策略和装备。比如，遇到强大的怪物时，它会用更强的武器和技能，而对于弱小的怪物，它会快速解决。这样不仅节省了资源，还能保证每次战斗的胜利。这种方法在视频生成中同样适用，通过动态调整标记分配，提高了生成效率和质量。

术语表

自回归模型 (Autoregressive Model)

一种生成模型，通过依次预测序列中的每个元素来生成数据。

在视频生成中用于生成视频帧序列。

标记化 (Tokenization)

将数据分解为离散标记的过程，以便于模型处理。

在视频生成中用于将视频像素压缩为离散标记序列。

代理标记器 (Proxy Tokenizer)

用于评估不同标记分配下的视频重建质量的标记器。

在EVATok中用于训练路由器的数据集创建。

路由器 (Router)

用于预测每个视频的最佳标记分配的轻量级模型。

在EVATok中用于实现自适应标记化。

LPIPS

一种用于评估图像和视频重建质量的指标，基于感知相似度。

在实验中用于评估EVATok的视频重建质量。

rFVD

一种用于评估视频生成质量的指标，基于生成视频的分布相似度。

在实验中用于评估EVATok的视频生成质量。

UCF-101

一个常用的视频数据集，包含101类动作视频。

在实验中用于评估EVATok的视频生成性能。

WebVid-10M

一个大型视频数据集，包含多种视频内容。

在实验中用于评估EVATok的视频重建性能。

VideoMAE

一种用于视频生成的语义编码器，增强视频标记器的训练。

在EVATok的最终标记器训练中使用。

生成对抗网络 (GAN)

一种生成模型，通过生成器和判别器的对抗训练生成数据。

在EVATok的训练中用于增强视频重建质量。

开放问题这项研究留下的未解疑问

1 EVATok在处理极端复杂或简单的视频时可能表现不佳，因为标记分配的预测可能不够精确。未来的研究可以集中在进一步优化标记分配预测的精度。
2 EVATok的训练过程中需要大量计算资源，可能不适合资源有限的场景。如何降低计算资源的需求是一个值得探索的问题。
3 EVATok在某些情况下的性能波动可能与标记分配的依赖有关。研究如何提高标记分配的稳定性是未来的一个方向。
4 EVATok在其他视频生成任务中的应用潜力巨大，未来的研究可以探索其在不同任务中的表现。
5 EVATok的自适应标记化策略为视频生成模型提供了新的思路，未来的研究可以探索其在其他生成模型中的应用。

应用场景

近期应用

视频重建

EVATok可以用于提高视频重建的效率和质量，尤其是在处理复杂动态视频时。

类到视频生成

EVATok可以用于根据类别标签生成视频，提高生成效率和质量。

帧预测

EVATok可以用于视频帧预测任务，提高预测精度和效率。

远期愿景

智能视频编辑

EVATok可以用于智能视频编辑，通过自适应标记化提高编辑效率和质量。

自动化视频生成

EVATok可以用于自动化视频生成任务，通过自适应标记化提高生成效率和质量。

原文摘要

Autoregressive (AR) video generative models rely on video tokenizers that compress pixels into discrete token sequences. The length of these token sequences is crucial for balancing reconstruction quality against downstream generation computational cost. Traditional video tokenizers apply a uniform token assignment across temporal blocks of different videos, often wasting tokens on simple, static, or repetitive segments while underserving dynamic or complex ones. To address this inefficiency, we introduce $\textbf{EVATok}$, a framework to produce $\textbf{E}$fficient $\textbf{V}$ideo $\textbf{A}$daptive $\textbf{Tok}$enizers. Our framework estimates optimal token assignments for each video to achieve the best quality-cost trade-off, develops lightweight routers for fast prediction of these optimal assignments, and trains adaptive tokenizers that encode videos based on the assignments predicted by routers. We demonstrate that EVATok delivers substantial improvements in efficiency and overall quality for video reconstruction and downstream AR generation. Enhanced by our advanced training recipe that integrates video semantic encoders, EVATok achieves superior reconstruction and state-of-the-art class-to-video generation on UCF-101, with at least 24.4% savings in average token usage compared to the prior state-of-the-art LARP and our fixed-length baseline.

cs.CV

参考文献 (20)

Taming Transformers for High-Resolution Image Synthesis

Patrick Esser, Robin Rombach, B. Ommer

2020 4004 引用 ⭐ 高影响力查看解读 →

LARP: Tokenizing Videos with a Learned Autoregressive Generative Prior

Hanyu Wang, Saksham Suri, Yixuan Ren 等

2024 33 引用 ⭐ 高影响力查看解读 →

GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation

Tianwei Xiong, J. Liew, Zilong Huang 等

2025 31 引用 ⭐ 高影响力查看解读 →

VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training

Zhan Tong, Yibing Song, Jue Wang 等

2022 1746 引用 ⭐ 高影响力查看解读 →

Diffusion Models Beat GANs on Image Synthesis

Prafulla Dhariwal, Alex Nichol

2021 11003 引用 ⭐ 高影响力查看解读 →

V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning

Mahmoud Assran, Adrien Bardes, David Fan 等

2025 231 引用 ⭐ 高影响力查看解读 →

GANs Trained by a Two Time-Scale Update Rule Converge to a Local Nash Equilibrium

M. Heusel, Hubert Ramsauer, Thomas Unterthiner 等

2017 17256 引用 ⭐ 高影响力

ElasticTok: Adaptive Tokenization for Image and Video

Wilson Yan, Matei Zaharia, Volodymyr Mnih 等

2024 28 引用 ⭐ 高影响力查看解读 →

Learning Adaptive and Temporally Causal Video Tokenization in a 1D Latent Space

Yan Li, Changyao Tian, Renqiu Xia 等

2025 5 引用 ⭐ 高影响力查看解读 →

The Unreasonable Effectiveness of Deep Features as a Perceptual Metric

Richard Zhang, Phillip Isola, Alexei A. Efros 等

2018 16328 引用 ⭐ 高影响力查看解读 →

Language Model Beats Diffusion -- Tokenizer is Key to Visual Generation

Lijun Yu, José Lezama, N. B. Gundavarapu 等

2023 566 引用 ⭐ 高影响力查看解读 →

Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval

Max Bain, Arsha Nagrani, Gül Varol 等

2021 1504 引用 ⭐ 高影响力查看解读 →

Adaptive Length Image Tokenization via Recurrent Allocation

Shivam Duggal, Phillip Isola, Antonio Torralba 等

2024 24 引用查看解读 →

One-D-Piece: Image Tokenizer Meets Quality-Controllable Compression

Keita Miwa, Kento Sasaki, Hidehisa Arai 等

2025 27 引用查看解读 →

Autoregressive Image Generation using Residual Quantization

Doyup Lee, Chiheon Kim, Saehoon Kim 等

2022 693 引用查看解读 →

Image-to-Image Translation with Conditional Adversarial Networks

Phillip Isola, Jun-Yan Zhu, Tinghui Zhou 等

2016 21859 引用查看解读 →

OmniTokenizer: A Joint Image-Video Tokenizer for Visual Generation

Junke Wang, Yi Jiang, Zehuan Yuan 等

2024 92 引用查看解读 →

FlexTok: Resampling Images into 1D Token Sequences of Flexible Length

Roman Bachmann, Jesse Allardice, David Mizrahi 等

2025 62 引用查看解读 →

Towards Accurate Image Coding: Improved Autoregressive Image Generation with Dynamic Vector Quantization

Mengqi Huang, Zhendong Mao, Zhuowei Chen 等

2023 62 引用查看解读 →

Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation

Peize Sun, Yi Jiang, Shoufa Chen 等

2024 616 引用查看解读 →

EVATok: Adaptive Length Video Tokenization for Efficient Visual Autoregressive Generation

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

自回归模型 (Autoregressive Model)

标记化 (Tokenization)

代理标记器 (Proxy Tokenizer)

路由器 (Router)

LPIPS

rFVD

UCF-101

WebVid-10M

VideoMAE

生成对抗网络 (GAN)

开放问题 这项研究留下的未解疑问

应用场景

近期应用

视频重建

类到视频生成

帧预测

远期愿景

智能视频编辑

自动化视频生成

原文摘要

参考文献 (20)

相关论文

Visual-ERM: Reward Modeling for Visual Equivalence

Out of Sight, Out of Mind? Evaluating State Evolution in Video World Models

InterEdit: Navigating Text-Guided Multi-Human 3D Motion Editing

Alternating Gradient Flow Utility: A Unified Metric for Structural Pruning and Dynamic Routing in Deep Networks

MM-CondChain: A Programmatically Verified Benchmark for Visually Grounded Deep Compositional Reasoning

OmniStream: Mastering Perception, Reconstruction and Action in Continuous Streams

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问