WorldKV: Efficient World Memory with World Retrieval and Compression

TL;DR

WorldKV提出基于KV缓存的检索与压缩，实现2倍吞吐量下持久一致的世界记忆。

cs.CV 🔴 高级 2026-05-22 50 次浏览

Jung Yi Minjae Kim Paul Hyunbin Cho Wooseok Jang Sangdoo Yun Seungryong Kim

视频扩散模型世界模型 KV缓存管理长时记忆实时推理

核心发现

方法论

本文提出WorldKV，一种无需训练的高效世界记忆框架，包含World Retrieval和World Compression两大核心组件。World Retrieval通过存储并检索被滑动窗口驱逐的KV缓存块，利用相机视角与动作对应关系选择性地将相关缓存重新插入当前注意力窗口，无需重新编码。World Compression基于关键帧的键向量相似度，剪枝冗余token，将每个3帧缓存块压缩至约一半大小，从而在固定内存预算下存储2倍历史。该方法兼容不同检索策略，且无需对基础模型进行微调。

关键结果

在Matrix-Game-2.0和LingBot-World-Fast两个不同规模的自回归视频世界模型上，WorldKV在保持或超越全KV缓存记忆一致性的同时，实现了约2倍的推理吞吐量提升。例如，LingBot-World-Fast中，WorldKV的FPS约为4.78，接近滑动窗口的5.05，远高于全KV缓存的2.36。
WorldKV在Matrix-Game-2.0上优于滑动窗口和全KV缓存，因该模型训练时仅使用短序列，完整KV缓存反而引入累积误差。WorldKV通过选择性检索相关缓存避免了此问题。
消融实验显示，World Compression在保持关键帧的基础上保留25%的非关键帧token，压缩率约为50%，既节省内存又提升重访一致性，且扩大历史覆盖比无压缩方案效果更佳。

研究意义

本研究解决了自回归视频扩散模型中长时记忆与实时推理的矛盾，突破了全KV缓存线性增长导致的内存和计算瓶颈。通过训练自由的缓存管理策略，WorldKV实现了无需额外训练即可提升世界模型的长时一致性和推理效率，推动了交互式视频生成、游戏和机器人仿真等领域的应用发展。

技术贡献

WorldKV创新性地将模型内部KV缓存视为潜在的世界记忆，提出了基于相机视角和动作的缓存检索机制，结合基于键向量余弦相似度的缓存压缩策略，系统性解决了长时记忆的存储与访问难题。该方法无需修改模型结构或训练流程，兼容多种检索策略，显著提升了推理吞吐量和记忆一致性，具备广泛适用性。

新颖性

WorldKV首次系统性利用自回归视频扩散模型的KV缓存作为长时视觉记忆，通过训练自由的检索与压缩机制，实现了实时且一致的世界生成。与依赖训练的外部记忆模块或3D场景重建方法相比，WorldKV无需额外训练且无重建延迟，提出了新的视角管理长时记忆的范式。

局限性

WorldKV依赖于基础模型的生成质量，无法解决长序列推理中累积误差导致的视觉伪影问题，限制了超长时间滚动的稳定性。
CPU内存卸载虽能缓解GPU显存压力，但当前主机与设备间传输延迟阻碍了实时多分钟推理，需进一步优化。
相机/动作基的检索策略在动作与视角映射不精确时可能降低检索效果，影响记忆一致性。

未来方向

未来工作可结合WorldKV与训练策略，提升多分钟世界生成的稳定性与视觉质量；优化CPU卸载机制，降低主机-设备传输延迟，实现长时实时推理；探索更精准的检索信号融合，提升缓存选择的鲁棒性与效率。

AI 总览摘要

随着自回归视频扩散模型的发展，实时动作条件下的世界生成成为可能，但如何保持长时一致的持久世界仍是难题。传统全KV缓存注意力虽能保证一致性，却因内存和计算成本随时间线性增长，难以满足实时需求；滑动窗口推理虽快，却丢失了长时记忆，导致内容漂移。针对这一矛盾，WorldKV提出了一种无需训练的缓存管理框架，包含World Retrieval和World Compression两大核心模块。World Retrieval通过存储并基于相机视角与动作对应关系检索相关KV缓存块，动态插入当前注意力窗口，无需重新编码，保证了对关键历史信息的访问。World Compression利用关键帧键向量的余弦相似度剪枝冗余token，将每个缓存块压缩至约一半大小，显著节省内存，允许存储更多历史信息。该方法在Matrix-Game-2.0和LingBot-World-Fast两大模型上验证，表现出与全KV缓存相当甚至更优的记忆一致性，同时实现约2倍推理吞吐量提升。WorldKV不仅超越了滑动窗口和部分训练记忆模块的性能，还避免了全KV缓存带来的计算瓶颈，展现了极佳的实用价值。尽管如此，WorldKV仍受限于基础模型的生成质量和CPU卸载的传输延迟，未来工作将聚焦于提升长序列稳定性和优化硬件协同。整体而言，WorldKV为视频世界模型的长时记忆管理提供了创新且高效的解决方案，推动了交互式视频生成和虚拟环境构建的技术进步。

深度分析

研究背景

近年来，自回归视频扩散模型结合因果注意力和KV缓存机制，成为实时交互式世界生成的主流架构。代表性工作如LingBot-World和Matrix-Game-2.0在动作或相机条件下实现了高质量的视频生成，广泛应用于游戏、机器人仿真和智能体交互等领域。尽管生成效果逼真，如何保持长时的空间和时间一致性，确保用户重访场景时内容不发生漂移，依然是核心挑战。全KV缓存注意力能够访问完整历史信息，保证一致性，但其内存和计算成本随时间线性增长，限制了实时推理的可行性。滑动窗口推理虽能控制计算成本，但丢弃了长时记忆，导致内容漂移和不一致。现有解决方案多依赖训练外部记忆模块或构建3D场景表示，增加训练和推理复杂度，且存在重建延迟。本文基于观察发现，模型自带的KV缓存本身即具备潜在的长时视觉记忆功能，提出训练自由的缓存管理策略，旨在突破现有瓶颈。

核心问题

核心问题在于如何在自回归视频扩散模型中实现长时持久一致的世界记忆，同时满足实时推理的内存和计算约束。具体瓶颈包括：1) 全KV缓存注意力的内存占用和计算成本随生成帧数线性增长，导致GPU显存不足和推理速度下降；2) 滑动窗口推理丢弃历史缓存，导致重访场景时内容漂移和不一致；3) 现有外部记忆模块依赖额外训练，增加系统复杂度和训练成本；4) 3D场景重建方法存在推理延迟，不适合实时应用。如何高效管理KV缓存，实现选择性检索和压缩，成为解决长时记忆与实时推理矛盾的关键。

核心创新

本文的核心创新包括：1) 将模型内部KV缓存视为天然的世界记忆，提出World Retrieval机制，通过相机视角和动作对应关系选择性检索相关缓存块，动态插入当前注意力窗口，无需重新编码，保持长时记忆访问的实时性；2) 引入World Compression机制，基于关键帧键向量的余弦相似度剪枝冗余token，将每个3帧缓存块压缩至约一半大小，显著降低存储需求，支持更长历史覆盖；3) 设计统一的训练自由框架，兼容多种检索策略，避免了对模型结构和训练流程的修改，提升了系统的通用性和实用性；4) 在两个不同规模和训练背景的世界模型上验证，展示了方法的稳健性和优越性。

方法详解

�� World Retrieval：在滑动窗口推理中，缓存被驱逐的KV块存储于GPU/CPU内存，并根据当前相机姿态和动作状态计算相似度，选取top-k相关缓存块重新插入当前注意力窗口。该过程无需重新编码，保证了对历史场景的高效访问。相似度计算结合了平移和旋转距离，适用于连续相机运动和离散动作输入。

�� World Compression：针对每个3帧缓存块，选定首帧为锚点，计算非锚帧token的键向量与锚帧键向量的余弦相似度，剪枝与锚帧高度相似的冗余token，保留低相似度token以保留动态和新信息。该压缩在每个Transformer层独立执行，压缩率约为50%，有效节省内存。

�� 框架兼容多种检索策略，支持基于相机/动作和基于查询的重要性评分，灵活适配不同模型和场景。

�� 实验中，WorldKV在保持长时一致性的同时，显著提升推理吞吐量，验证了方法的有效性和实用性。

实验设计

实验基于Matrix-Game-2.0（1.3B参数，短序列训练）和LingBot-World-Fast（14B参数，长视频蒸馏训练）两大自回归视频世界模型。基准测试包含60个场景-轨迹对，涵盖室内、室外、城市和自然等多样视觉域，设计包含多次重访和闭环事件。比较基线包括滑动窗口推理、全KV缓存注意力及带记忆训练的WorldPlay和Yume-1.5。评估指标涵盖LPIPS、PSNR、SSIM和FID，衡量重访一致性和视觉质量，同时报告推理吞吐量（FPS）。消融实验探讨了压缩率和检索策略对性能的影响。

结果分析

WorldKV在LingBot-World-Fast上实现约4.78 FPS，接近滑动窗口的5.05 FPS，远超全KV缓存的2.36 FPS，且LPIPS、PSNR和FID指标均优于滑动窗口和部分记忆训练基线。在Matrix-Game-2.0上，WorldKV优于滑动窗口和全KV缓存，避免了全KV缓存因训练短序列导致的累积误差。消融显示，适度压缩（保留25%非锚帧token）在节省内存的同时提升重访一致性，扩大历史覆盖比无压缩更有效。整体结果表明，WorldKV在无训练代价下实现了长时记忆与实时推理的良好平衡。

应用场景

WorldKV适用于实时交互式视频生成、游戏世界构建、机器人仿真和智能体环境模拟等场景。其训练自由和高效缓存管理特性降低了部署门槛，支持多领域多模态长时一致性生成。通过提升长时记忆一致性和推理速度，WorldKV有助于增强用户沉浸感和系统响应能力，推动虚拟现实、数字孪生和智能交互技术的发展。

局限与展望

WorldKV依赖基础模型的生成质量，无法根本解决长序列推理中累积误差导致的视觉伪影，限制了超长时间滚动的稳定性。CPU内存卸载虽缓解显存压力，但主机与设备间的传输延迟阻碍实时多分钟推理。相机/动作基检索策略在动作与视角映射不精确时可能降低缓存检索效果，影响记忆一致性。未来需结合训练策略提升稳定性，优化硬件协同，增强检索鲁棒性。

通俗解读非专业人士也能看懂

想象你在玩一款大型开放世界游戏，游戏里每个角落你都能自由探索。为了让游戏世界看起来真实且一致，游戏需要记住你之前去过的地方长什么样子。传统方法要么记住所有细节但导致游戏卡顿，要么只记最近的部分，结果回头看时场景变了，体验很糟糕。WorldKV就像游戏里的“记忆助手”，它聪明地把你之前看到的重要画面存起来，并且只在你回到那个地方时拿出来用，不用每次都重新画一遍。同时，它还能把画面里重复的部分压缩，节省空间。这样，游戏既能保持画面一致，又不卡顿，玩起来更流畅。这个方法不需要重新训练游戏引擎，直接利用已有的记忆数据，既高效又实用。

简单解释像给14岁少年讲一样

嘿，想象你玩一个超级酷的游戏，里面有个魔法笔记本，能记住你去过的每个地方长什么样。以前，这个笔记本太大了，写满了所有细节，结果游戏变慢了。WorldKV就是帮你整理这个笔记本的魔法工具！它会挑出最重要的画面放进去，还会把重复的内容缩小一半，这样笔记本变得轻巧又聪明。下次你回到那个地方，游戏就能快速翻开笔记本，给你展示一模一样的场景，感觉超真实！而且，这个魔法工具不需要重新教游戏怎么玩，直接用现成的记忆就行。是不是很棒？这样你玩游戏时既流畅又不会迷路！

术语表

KV Cache (键值缓存)

Transformer模型中存储先前生成内容的键和值的缓存，用于高效计算注意力。它帮助模型记住历史信息，支持长序列生成。

本文利用KV缓存作为视频世界模型的长时视觉记忆，实现缓存的存储、检索与压缩。

Autoregressive Video Diffusion (自回归视频扩散)

一种通过逐帧生成视频内容的扩散模型，结合因果注意力机制，实现条件视频生成。

本文基于自回归视频扩散模型构建世界生成，重点优化其长时记忆机制。

Sliding-window Inference (滑动窗口推理)

模型仅关注最近一段历史信息进行推理，限制上下文长度以控制计算成本。

滑动窗口推理虽保证实时性，但丢弃长时记忆，导致内容漂移。

World Retrieval (世界检索)

选择性从存储的KV缓存中检索与当前视角和动作相关的缓存块，插入当前注意力窗口。

WorldKV的核心组件之一，实现高效访问长时记忆。

World Compression (世界压缩)

基于关键帧键向量相似度剪枝冗余token，减少缓存块大小，节省存储空间。

WorldKV通过压缩机制提升缓存存储效率，支持更长历史覆盖。

LPIPS (感知图像补丁相似度)

衡量两张图像感知差异的指标，数值越低表示视觉相似度越高。

用于评估重访场景生成与首次访问的视觉一致性。

PSNR (峰值信噪比)

衡量图像重建质量的指标，数值越高表示重建图像与原图越接近。

评估生成视频帧质量的重要指标。

FID (生成对抗网络距离)

衡量生成图像分布与真实图像分布差异的指标，数值越低表示生成质量越好。

用于评估生成视频帧的整体质量和多样性。

Camera/Action Correspondence (相机/动作对应关系)

基于相机位置和动作状态判断缓存块与当前视角的相关性。

World Retrieval中用于选择相关KV缓存块的关键依据。

Cosine Similarity (余弦相似度)

衡量两个向量方向相似度的指标，值范围[-1,1]，越接近1表示越相似。

World Compression中用于判断token冗余的关键度量。

开放问题这项研究留下的未解疑问

1 如何在超长时间尺度（多分钟甚至更长）下，结合训练策略和缓存管理，实现稳定且高质量的世界生成仍未解决。
2 当前CPU卸载机制存在主机与设备间传输延迟，限制了实时多分钟推理，如何优化硬件协同是关键挑战。
3 相机/动作基检索策略在复杂动态场景或动作与视角映射不精确时的鲁棒性和泛化能力尚需深入研究。
4 KV缓存中冗余信息的更细粒度压缩策略及其对生成质量的影响机制尚未完全揭示。
5 如何将WorldKV与3D场景重建等显式记忆方法结合，兼顾效率与几何一致性，是未来重要方向。

应用场景

近期应用

实时游戏世界生成

通过WorldKV实现游戏中场景的长时一致性和快速响应，提升玩家沉浸感和交互体验。

机器人仿真环境

支持机器人在虚拟环境中进行长时间探索和任务执行，保证环境状态一致性，促进智能体训练。

交互式虚拟现实

增强虚拟现实系统中场景的持久记忆能力，实现用户自由移动时环境的稳定呈现。

远期愿景

多分钟乃至更长时序的世界模型

结合优化的缓存管理和训练策略，实现超长时间尺度的稳定视频世界生成，推动数字孪生和虚拟助手发展。

高效多模态记忆系统

扩展WorldKV框架至多模态数据（如语音、文本与视觉），构建统一且高效的长时记忆机制，提升智能交互系统能力。

原文摘要

Autoregressive video diffusion models have enabled real-time, action-conditioned world generation. However, sustaining a persistent world, where revisiting a previously seen viewpoint yields consistent content, remains an open problem. Full KV-cache attention preserves this consistency but breaks real-time constraints: memory footprint and attention cost grow linearly with rollout length. Sliding window inference restores throughput but discards long-term consistency. We propose WorldKV, a training-free framework with two components: World Retrieval and World Compression. World Retrieval stores evicted KV-cache chunks in GPU/CPU memory and selectively retrieves scene-relevant chunks via camera/ action correspondence, inserting them back into the native attention window without re-encoding. World Compression prunes redundant tokens within each chunk via key-key similarity to an anchor frame, halving per-chunk storage to fit 2x more history under a fixed budget. On Matrix-Game-2.0 and LingBot- World-Fast, WorldKV matches or exceeds full-KV memory fidelity at roughly 2x the throughput, and is competitive with memory-trained baselines without any fine-tuning. Project Page: https://cvlab-kaist.github.io/WorldKV/

cs.CV

参考文献 (20)

Advancing Open-source World Models

R. Gao, Qiuyu Wang, Yanhong Zeng 等

2026 34 引用 ⭐ 高影响力查看解读 →

RELIC: Interactive Video World Model with Long-Horizon Memory

Yicong Hong, Yiqun Mei, Chongjian Ge 等

2025 34 引用 ⭐ 高影响力查看解读 →

Yume-1.5: A Text-Controlled Interactive World Generation Model

Xiaofeng Mao, Zhen Li, Chuanhao Li 等

2025 25 引用 ⭐ 高影响力查看解读 →

Deep Forcing: Training-Free Long Video Generation with Deep Sink and Participative Compression

Jung Yi, Wooseok Jang, Paul Hyunbin Cho 等

2025 28 引用 ⭐ 高影响力查看解读 →

WorldPlay: Towards Long-Term Geometric Consistency for Real-Time Interactive World Modeling

Wenqiang Sun, Haiyu Zhang, Haoyuan Wang 等

2025 53 引用 ⭐ 高影响力查看解读 →

Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion

Xun Huang, Zhengqi Li, Guande He 等

2025 315 引用 ⭐ 高影响力查看解读 →

Matrix-Game 2.0: An Open-Source, Real-Time, and Streaming Interactive World Model

Xianglong He, Chunli Peng, Zexiang Liu 等

2025 79 引用 ⭐ 高影响力查看解读 →

SnapKV: LLM Knows What You are Looking for Before Generation

Yuhong Li, Yingbing Huang, Bowen Yang 等

2024 608 引用查看解读 →

Solaris: Building a Multiplayer Video World Model in Minecraft

George Savva, Oscar Michel, Daohan Lu 等

2026 7 引用查看解读 →

Efficient Streaming Language Models with Attention Sinks

Guangxuan Xiao, Yuandong Tian, Beidi Chen 等

2023 1830 引用查看解读 →

LongLive: Real-time Interactive Long Video Generation

Shuai Yang, Wei Huang, Ruihang Chu 等

2025 122 引用查看解读 →

Grounding World Simulation Models in a Real-World Metropolis

Junyoung Seo, Hyunwook Choi, Min-Joon Kwon 等

2026 2 引用查看解读 →

Image quality assessment: from error visibility to structural similarity

Zhou Wang, A. Bovik, H. Sheikh 等

2004 56785 引用

SkyReels-V2: Infinite-length Film Generative Model

Guibin Chen, Dixuan Lin, Jiangping Yang 等

2025 149 引用查看解读 →

H2O: Heavy-Hitter Oracle for Efficient Generative Inference of Large Language Models

Zhenyu (Allen) Zhang, Ying Sheng, Tianyi Zhou 等

2023 711 引用查看解读 →

VMem: Consistent Interactive Video Scene Generation with Surfel-Indexed View Memory

Runjia Li, Philip H. S. Torr, Andrea Vedaldi 等

2025 59 引用查看解读 →

From Slow Bidirectional to Fast Autoregressive Video Diffusion Models

Tianwei Yin, Qiang Zhang, Richard Zhang 等

2024 266 引用查看解读 →

Lost in the Middle: How Language Models Use Long Contexts

Nelson F. Liu, Kevin Lin, John Hewitt 等

2023 3709 引用查看解读 →

DreamDojo: A Generalist Robot World Model from Large-Scale Human Videos

Shenyuan Gao, William Liang, Kaiyuan Zheng 等

2026 28 引用查看解读 →

WORLDMEM: Long-term Consistent World Simulation with Memory

Zeqi Xiao, Yushi Lan, Yifan Zhou 等

2025 88 引用查看解读 →

WorldKV: Efficient World Memory with World Retrieval and Compression

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

KV Cache (键值缓存)

Autoregressive Video Diffusion (自回归视频扩散)

Sliding-window Inference (滑动窗口推理)

World Retrieval (世界检索)

World Compression (世界压缩)

LPIPS (感知图像补丁相似度)

PSNR (峰值信噪比)

FID (生成对抗网络距离)

Camera/Action Correspondence (相机/动作对应关系)

Cosine Similarity (余弦相似度)

开放问题 这项研究留下的未解疑问

应用场景

近期应用

实时游戏世界生成

机器人仿真环境

交互式虚拟现实

远期愿景

多分钟乃至更长时序的世界模型

高效多模态记忆系统

原文摘要

参考文献 (20)

相关论文

JanusMesh: Fast and Zero-Shot 3D Visual Illusion Generation via Cross-Space Denoising

UNIEGO: Proxies as Mediators for Unified Egocentric Video Representation Learning

SSD: Spatially Speculative Decoding Accelerates Autoregressive Image Generation

CalTennis: Large Multi-View Tennis Video Dataset and Benchmark of Monocular-to-3D Pose Estimation

Unified Multimodal Autoregressive Modeling with Shared Context-Visual Tokenizer is Key to Unification

EventDrive: Event Cameras for Vision-Language Driving Intelligence

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问