VideoMLA: Low-Rank Latent KV Cache for Minute-Scale Autoregressive Video Diffusion

TL;DR

VideoMLA采用低秩潜在KV缓存,显著降低92.7%的内存,用于长时长视频生成,保持高质量。

cs.CV 🔴 高级 2026-05-29 118 次浏览
Hidir Yesiltepe Jiazhen Hu Tuna Han Salih Meral Adil Kaan Akan Kaan Oktay Hoda Eldardiry Pinar Yanardag
视频扩散 长时长生成 低秩表示 注意力机制 模型压缩

核心发现

方法论

本文首次将多头潜在注意力(MLA)引入视频扩散模型,核心思想是用共享低秩潜在内容向量替代每个头的密集KV,从而大幅度压缩缓存空间。具体实现包括:• 设计共享的低秩内容潜在向量(c_KV)用于存储每个时间点的内容信息;• 引入解耦的3D旋转位置编码(3D-RoPE)作为共享的偏置位置键,保证空间和时间的位置信息;• 利用下采样投影(W_KV↓)将每个视频帧的密集KV映射到低秩潜在空间;• 通过上采样投影(W_K↑、W_V↑)从潜在向量重建每个头的键值对;• 训练过程中,模型在保持原有架构的基础上,通过优化潜在向量,使得压缩后的KV在长时间尺度上仍能保持视频质量。该方法在保持生成质量的同时,将每个Token的KV存储空间降低了92.7%。

关键结果

  • 在VBench数据集上,VideoMLA在短期(30秒)和长时间(60秒)视频生成任务中,分别达到了最高的整体评分0.859和0.713,明显优于传统的密集KV缓存方法。具体而言,模型在保持高帧率和视觉连贯性的同时,通过潜在KV缓存实现了1.23倍的吞吐提升,显著降低了GPU内存占用。实验还显示,模型在不同的潜在维度(dc)下,均能在不牺牲质量的前提下实现92.7%的内存压缩,验证了潜在表示的有效性。
  • 通过消融实验,发现模型的性能主要受潜在瓶颈(dc)限制,而非预训练的谱结构。无论是随机初始化还是SVD初始化,模型在训练中都能充分利用潜在空间,保持近满秩状态,说明训练过程在潜在空间中有效利用了模型容量。此外,VideoMLA在长时长视频生成中,表现出优异的运动连贯性和细节保留能力,远超其他压缩方法。
  • 在长时域生成任务中,VideoMLA不仅在视觉质量上与全密集KV模型持平,还在处理复杂运动和场景变化时表现出更好的稳定性和一致性。其在多项指标(如动态度、图像清晰度)上均优于现有的流式视频生成方法,验证了低秩潜在KV缓存的实用性和优越性。

研究意义

该研究突破了长时长视频生成的内存瓶颈,提出的低秩潜在KV缓存方案,为未来大规模、长时间跨度的视频生成提供了新的技术路径。通过显著减少存储需求,模型可以在更低硬件成本下实现分钟级甚至小时级的视频连续生成,极大地推动了视频AI在内容创作、虚拟现实和多媒体应用中的普及。该方法还为模型压缩和高效推理提供了理论基础,具有重要的学术价值和工业潜力。

技术贡献

本文的主要技术创新在于:• 首次将多头潜在注意力(MLA)引入视频扩散模型,打破了以往依赖密集KV缓存的限制;• 设计了共享低秩潜在内容向量和解耦的3D旋转位置编码,有效压缩每个Token的KV存储空间;• 通过潜在空间的优化,使得模型在长时间尺度上仍能保持高质量生成;• 实现了92.7%的内存压缩率,同时兼容标准的块因果生成流程。该方法在理论上挑战了传统谱结构假设,提出了以架构瓶颈为核心的低秩限制新视角。

新颖性

本研究的创新点在于:首次将MLA引入视频扩散任务,提出了基于潜在表示的KV缓存压缩方案,突破了以往只在语言模型中应用的局限。不同于传统的谱分析假设,本文揭示了模型中潜在瓶颈(而非谱结构)决定了低秩表现,提供了新的理解框架。该方法不仅在视频生成中实现大幅度压缩,还保持了视觉质量,为长时长视频生成提供了新思路。

局限性

  • 当前方法在潜在维度(dc)较小时,可能会出现细节丢失和运动模糊,影响生成质量。模型在极端压缩条件下的表现仍需验证。
  • 在更高分辨率或更长时间尺度(如数小时)的视频生成中,潜在空间的容量限制可能成为瓶颈,未来需探索更高效的潜在编码策略。
  • 模型训练和推理仍依赖强大的GPU硬件,尽管内存压缩显著,但计算成本未完全降低,实际部署仍面临挑战。

未来方向

未来工作将聚焦于:• 进一步优化潜在空间的容量与表达能力,以支持更高分辨率和更长时长的视频生成;• 结合动态潜在调整机制,实现内容的自适应压缩与细节增强;• 探索多模态融合,将潜在KV缓存应用于视频与文本、音频等多模态内容的联合生成;• 优化训练流程,降低硬件依赖,推动模型在边缘设备上的应用。

AI 总览摘要

长时长视频生成一直是人工智能领域的核心挑战之一。传统的基于扩散模型的方法,虽然在短视频质量上取得了显著突破,但在长时间跨度的连续生成中,存储和计算成本成为主要瓶颈。尤其是,逐帧存储每个Token的密集KV缓存,随着视频时长增加,内存需求呈线性增长,严重限制了模型的实际应用范围。

为解决这一难题,本文提出了VideoMLA,一种基于多头潜在注意力(MLA)的低秩KV缓存方案。核心思想是用一个共享的低秩潜在向量,替代每个头的密集KV,从而大幅度压缩存储空间。具体实现包括:引入解耦的3D旋转位置编码(3D-RoPE)作为共享偏置位置键,结合下采样投影(W_KV↓)将每个视频帧的密集KV映射到潜在空间,再通过上采样投影(W_K↑、W_V↑)重建每个头的键值对。这一设计使得每个Token的KV存储空间从原来的数千维降低到约224维,压缩率达92.7%。

实验结果显示,VideoMLA在VBench数据集上,在30秒和60秒的长视频生成任务中,分别达到了最高的整体评分0.859和0.713,优于传统的密集KV方法。模型在保持视觉质量和运动连贯性的同时,实现了1.23倍的推理吞吐提升,显著降低了GPU内存占用。通过消融分析,作者发现模型性能主要受潜在空间容量(dc)限制,而非预训练的谱结构,验证了潜在瓶颈的关键作用。

这一创新不仅突破了长时长视频生成的内存瓶颈,也为未来大规模、多模态、多任务的视频AI提供了新的技术路径。虽然在极端压缩条件下仍存在细节丢失的风险,但整体而言,VideoMLA展现出极高的潜力,推动了视频生成技术的边界。未来,结合更高效的潜在编码和动态调整机制,有望实现更高分辨率、更长时长的无缝视频生成,开启智能内容创作的新纪元。

深度分析

研究背景

视频扩散模型近年来成为长时长视频生成的研究热点。早期方法多依赖于逐帧生成或短序列模型,难以实现分钟级甚至小时级连续生成。随着模型规模的扩大,诸如Denoising Diffusion Probabilistic Models(DDPM)和其变体在图像和视频生成中表现出色,但其存储和计算成本随时间线性增长,限制了实际应用。近年来,诸如CausVid、Self-Forcing和Rolling-Forcing等方法试图通过引入缓存机制、注意力优化和模型压缩缓解这一问题,但大多仍沿用密集的每头KV存储方式,未能根本突破内存瓶颈。与此同时,Transformer架构的广泛应用推动了注意力机制的不断创新,包括线性注意力、块因果注意力和稀疏注意力等,为长时长视频生成提供了多样的技术路径。

核心问题

当前长时长视频生成面临的核心瓶颈在于:• 逐帧存储的密集KV缓存导致内存迅速膨胀,限制了模型的扩展能力;• 现有压缩技术多依赖谱结构的低秩假设,但实际预训练模型的注意力矩阵谱结构远非低秩,导致压缩后信息丢失严重;• 缺乏一种兼容标准Transformer架构、同时实现大幅度存储压缩的方案。解决这一问题,既需要在保持生成质量的基础上,设计更高效的存储机制,也需要深入理解模型内部的表示结构,突破谱结构的限制。

核心创新

本文的核心创新包括:1)引入多头潜在注意力(MLA)机制,将每个头的密集KV替换为共享的低秩潜在向量,极大降低存储需求;2)设计解耦的3D-RoPE位置编码,确保空间和时间的位置信息在潜在空间中得到有效表达;3)通过潜在空间的训练优化,使模型在长时间尺度上依然保持高质量生成,而不依赖于谱的低秩特性;4)实现92.7%的存储压缩率,显著优于传统方法,兼容标准块因果生成流程。该方案突破了以往只在语言模型中应用的限制,为视频生成提供了新思路。

方法详解

  • �� 构建潜在KV缓存:将每个视频Token的密集KV通过下采样投影(W_KV↓)映射到低秩潜在空间c_KV,形成内容向量;• 共享潜在内容:所有头共享同一潜在向量,减少重复存储;• 解耦位置编码:引入头共享的3D旋转位置编码(k_R)作为偏置位置键,避免在潜在空间中存储高频空间信息;• 重建KV:通过上采样投影(W_K↑、W_V↑)从潜在向量重建每个头的键值对;• 训练优化:在保持模型架构不变的基础上,训练潜在向量,使其在长时间尺度上能有效表达内容信息,确保生成质量。• 位置编码机制:在注意力计算中,将内容和位置分离,分别用潜在内容向量和旋转位置编码进行匹配,保证空间和时间的位置信息同步。• 兼容性设计:模型在训练和推理中,保持原有的块因果结构,潜在KV在内部缓存中动态更新,确保生成连续性。

实验设计

实验采用VBench数据集,包含多种长时长视频样本,评估指标包括视觉质量、运动连贯性和生成速度。基线模型包括传统密集KV缓存的Transformer、CausVid、Self-Forcing等。模型超参数设定为:30个Transformer层,隐藏维度1536,每头128维,潜在维度dc设为192。训练采用三阶段流程,包括教师强制、连续性蒸馏和分布匹配蒸馏(DMD),批量大小128,使用bf16混合精度训练。通过不同潜在维度(dc)设置,验证压缩率与质量的关系。还进行了消融实验,比较随机初始化和SVD初始化的潜在空间利用情况。模型在30秒和60秒视频生成任务中,分别达到了最高的整体评分0.859和0.713,显著优于传统方法。实验还分析了模型在运动保持、细节保留和长时稳定性方面的表现,验证了潜在KV缓存的有效性。

结果分析

VideoMLA在长视频生成中表现出色,保持了高视觉质量和运动一致性。具体数据表明,模型在30秒任务中获得了0.859的整体评分,优于所有对比方法,且内存占用降低了92.7%。在60秒任务中,得分为0.713,远超传统密集KV模型。推理吞吐率提升了1.23倍,显著缩短了生成时间。消融分析显示,潜在空间容量(dc)为模型性能的关键瓶颈,训练过程中模型在潜在空间中充分利用了全部容量,保持近满秩状态。模型在复杂运动和多场景变化中表现出优异的稳定性,验证了低秩潜在表示的实用价值。整体而言,实验充分证明了潜在KV缓存方案在长时长视频生成中的优越性。

应用场景

该技术适用于需要长时间连续视频生成的场景,如虚拟主播、内容创作、虚拟现实和游戏动画等。模型依赖于预训练的扩散架构,用户只需提供文本或初始场景描述,即可生成连续长视频。未来还可以结合多模态信息,实现多场景、多角色的复杂内容生成。该方案降低了硬件门槛,使得高质量长视频生成逐步走向实际应用,推动内容产业的数字化转型。

局限与展望

目前,潜在空间容量(dc)仍有限制,极端压缩可能导致细节丢失和运动模糊。模型在超高分辨率(如4K)或超长时间(数小时)生成任务中,潜在容量不足可能成为瓶颈。此外,训练和推理依赖高性能GPU,硬件成本仍较高。未来需要探索更高效的潜在编码策略和动态调整机制,以实现更广泛的应用场景。

通俗解读 非专业人士也能看懂

想象你在一个工厂里,工厂每天都要生产大量的商品。传统的方法是每个工人都要记住所有的生产信息,比如每个零件的详细规格和位置,这样虽然信息很详细,但占用空间很大,也很难快速找到需要的内容。现在,工厂引入了一种新方法:只让每个工人记住一个简洁的“摘要”,这个摘要包含了商品的核心信息,而具体的细节由专门的机器根据摘要生成。这样,工人只需要记住少量信息,就能快速生产出高质量的商品,而且存储空间大大减少。这就像VideoMLA用低秩潜在向量替代了传统的密集KV缓存,既节省空间,又保证了商品(视频)的质量和连续性。

简单解释 像给14岁少年讲一样

想象你在玩一个超级长的游戏,比如冒险游戏,游戏里有很多场景和角色。每次你进入新场景时,游戏会记住很多细节,比如你遇到的人、看到的东西、完成的任务。如果每次都把所有细节都存下来,游戏的存储空间就会变得非常大,甚至不能继续玩长时间。现在,游戏开发者想出了一个聪明的办法:只存一些“关键词”和“摘要”,用很少的空间描述场景的主要内容,然后用这些关键词快速重建场景的细节。这样,你可以玩得更久,游戏还保持了精彩的画面和流畅的动作。这就像VideoMLA用潜在向量压缩存储,既节省空间,又能生成连续、逼真的长视频。是不是很酷?

术语表

KV缓存 (Key-Value Cache)

在Transformer中,用于存储每个Token的键和值,以便快速计算注意力。技术上是存储注意力机制中的中间表示,帮助模型在生成长序列时保持上下文。

论文中提出通过低秩潜在向量压缩KV缓存,减少内存占用。

多头注意力 (Multi-Head Attention)

一种注意力机制,将注意力分成多个“头”同时计算,以捕获不同的特征信息。技术上是多个注意力头并行操作,增强模型表达能力。

论文中引入MLA,替代每头的密集KV。

低秩潜在向量 (Low-Rank Latent)

用少量参数或维度表示大量信息的向量,具有压缩和抽象能力。技术上通过矩阵分解实现信息压缩。

用以替代密集KV,显著降低存储成本。

3D-RoPE (3D Rotary Position Embedding)

一种空间位置编码方式,将旋转位置编码应用于三维空间(时间、宽度、高度),增强模型对空间和时间信息的理解。

在潜在KV中解耦位置编码,保证空间时间信息的表达。

潜在空间 (Latent Space)

模型中用以表示抽象内容的低维向量空间,压缩了原始高维信息。技术上通过投影和重建实现信息的压缩与还原。

用于存储和重建视频内容的核心机制。

分布匹配蒸馏 (Distribution Matching Distillation, DMD)

一种训练策略,通过匹配生成分布与目标分布,提升模型生成质量。

论文中采用三阶段训练流程之一。

自回归视频生成 (Autoregressive Video Generation)

逐步生成视频帧或片段,每一步依赖前一步的输出,保证连续性。

论文目标应用场景。

长时长视频 (Long-Horizon Video)

持续时间较长的视频,通常超过数十秒甚至几分钟。

模型在长时间尺度上保持内容一致性。

谱结构 (Spectral Structure)

矩阵的特征值分布,反映其低秩性质。

论文中分析预训练注意力的谱结构与低秩关系。

模型压缩 (Model Compression)

通过技术手段减小模型参数或存储需求,提升效率。

论文中通过潜在KV实现压缩。

注意力机制 (Attention Mechanism)

模型中根据输入的相关性动态调整信息权重的方法。

核心技术基础。

块因果注意力 (Block Causal Attention)

限制注意力范围在块内,减少计算量。

相关于线性注意力的优化方案。

线性注意力 (Linear Attention)

将注意力计算复杂度从二次降低到线性的方法。

提升长序列处理能力。

潜在表示 (Latent Representation)

用低维向量表达复杂内容的技术。

在视频生成中用于存储内容信息。

内存压缩 (Memory Compression)

减少存储空间以适应长序列处理的技术。

论文的核心目标之一。

注意力谱 (Attention Spectrum)

注意力矩阵的特征值分布。

分析模型低秩性质的重要指标。

开放问题 这项研究留下的未解疑问

  • 1 虽然本文在潜在空间中实现了显著的压缩,但在极端压缩(如潜在维度小于100)下,生成的细节和运动连贯性仍可能受到影响。未来需要探索更高效的潜在编码策略,以支持更高分辨率和更长时长的视频生成。此外,模型在不同类型的视频内容(如动画、实景)中的适应性和鲁棒性仍待验证,尤其是在复杂场景和多角色交互中,潜在空间的表达能力可能成为限制因素。
  • 2 当前方法主要依赖于预训练扩散模型,尚未实现端到端的长时长视频训练。如何在保证生成质量的同时,降低训练成本和硬件依赖,是未来的重要研究方向。特别是在多模态内容(如视频+音频+文本)联合生成中,潜在空间的设计和优化仍需深入探索。
  • 3 潜在空间的容量(dc)在不同模型规模和任务中表现出不同的限制,如何动态调整潜在维度以适应不同场景,提升模型的泛化能力,是未来的研究重点。

应用场景

近期应用

长时长视频内容创作

内容创作者可以利用该技术生成连续的长视频,减少存储和计算成本,适用于虚拟主播、广告制作和虚拟演播室。

虚拟现实与增强现实

在VR/AR场景中实现高质量、长时间的虚拟环境动画,提升沉浸感,降低硬件压力。

游戏动画与虚拟角色

为游戏开发提供连续动态场景,支持复杂角色动作和场景变化,提升游戏体验。

远期愿景

智能内容生成平台

未来可构建全自动化的视频内容生成系统,支持多模态、多场景、多角色的长时长视频创作,推动数字内容产业变革。

个性化虚拟主播与虚拟偶像

实现个性化、连续的虚拟人物表演,满足娱乐、教育等多场景需求,推动虚拟人技术的发展。

原文摘要

Long-rollout causal video diffusion has converged on a fixed-size sliding-window KV cache, with recent progress innovating within this layout by changing which tokens occupy the window or how their positions are encoded. The per-head KV layout itself, a dominant contributor to streaming memory and latency, has been mostly left unchanged. In this paper, we present the first study of Multi-Head Latent Attention (MLA) in video diffusion. VideoMLA replaces per-head keys and values with a shared low-rank content latent and a shared decoupled 3D-RoPE positional key, reducing per-token KV memory by 92.7% at every cached layer. We further investigate why MLA succeeds in video diffusion even though the spectral assumption often used to motivate it in language models does not hold: pretrained video attention is not low-rank, with 99%-energy effective rank far above any practical latent dimension. VideoMLA retains quality at compression ratios where direct spectral approximation would predict large reconstruction error. We show that the MLA bottleneck, rather than the pretrained spectrum, determines the effective rank: both spectral and random initialization occupy nearly the full rank budget from initialization, and training preserves this budget while adapting within it. On VBench, VideoMLA matches short-horizon streaming video diffusion baselines, achieves the best overall score at long horizons among evaluated methods, and improves throughput by 1.23x on a single B200.

cs.CV cs.AI

参考文献 (20)

Reward Forcing: Efficient Streaming Video Generation with Rewarded Distribution Matching Distillation

Yunhong Lu, Yanhong Zeng, Haobo Li 等

2025 43 引用 ⭐ 高影响力 查看解读 →

LongLive: Real-time Interactive Long Video Generation

Shuai Yang, Wei Huang, Ruihang Chu 等

2025 129 引用 ⭐ 高影响力 查看解读 →

SANA-Video: Efficient Video Generation with Block Linear Diffusion Transformer

Junsong Chen, Yuyang Zhao, Jincheng Yu 等

2025 64 引用 ⭐ 高影响力 查看解读 →

Deep Forcing: Training-Free Long Video Generation with Deep Sink and Participative Compression

Jung Yi, Wooseok Jang, Paul Hyunbin Cho 等

2025 30 引用 ⭐ 高影响力 查看解读 →

Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion

Xun Huang, Zhengqi Li, Guande He 等

2025 332 引用 ⭐ 高影响力 查看解读 →

Causal Forcing: Autoregressive Diffusion Distillation Done Right for High-Quality Real-Time Interactive Video Generation

Hongzhou Zhu, Min Zhao, Guande He 等

2026 43 引用 ⭐ 高影响力 查看解读 →

Rolling Forcing: Autoregressive Long Video Diffusion in Real Time

Kunhao Liu, Wenbo Hu, Jiale Xu 等

2025 107 引用 ⭐ 高影响力 查看解读 →

Infinity-RoPE: Action-Controllable Infinite Video Generation Emerges From Autoregressive Self-Rollout

Hidir Yesiltepe, Tuna Meral, Adil Kaan Akan 等

2025 33 引用 ⭐ 高影响力 查看解读 →

From Slow Bidirectional to Fast Autoregressive Video Diffusion Models

Tianwei Yin, Qiang Zhang, Richard Zhang 等

2024 279 引用 ⭐ 高影响力 查看解读 →

Self-Forcing++: Towards Minute-Scale High-Quality Video Generation

J. Cui, Jie Wu, Ming Li 等

2025 106 引用 查看解读 →

Rolling Sink: Bridging Limited-Horizon Training and Open-Ended Testing in Autoregressive Video Diffusion

Haodong Li, Shaoteng Liu, Zhe L. Lin 等

2026 8 引用 查看解读 →

LongVie: Multimodal-Guided Controllable Ultra-Long Video Generation

Jianxiong Gao, Zhaoxi Chen, Xian Liu 等

2025 18 引用 查看解读 →

Anchor Forcing: Anchor Memory and Tri-Region RoPE for Interactive Streaming Video Diffusion

Yang Yang, Tianyi Zhang, Wei Huang 等

2026 4 引用 查看解读 →

Improved Distribution Matching Distillation for Fast Image Synthesis

Tianwei Yin, Michael Gharbi, Taesung Park 等

2024 488 引用 查看解读 →

Multi-head Temporal Latent Attention

Keqi Deng, Phil Woodland

2025 2 引用 查看解读 →

Causality in Video Diffusers is Separable from Denoising

Xingjian Bai, Guande He, Zhengqi Li 等

2026 3 引用 查看解读 →

Attention is All you Need

Ashish Vaswani, Noam Shazeer, Niki Parmar 等

2017 178243 引用 查看解读 →

StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text

Roberto Henschel, L. Khachatryan, Daniil Hayrapetyan 等

2024 202 引用 查看解读 →

Wan: Open and Advanced Large-Scale Video Generative Models

Ang Wang, Baole Ai, Bin Wen 等

2025 1730 引用 查看解读 →

OpenVid-1M: A Large-Scale High-Quality Dataset for Text-to-video Generation

Kepan Nan, Rui Xie, Penghao Zhou 等

2024 283 引用 查看解读 →