Next Forcing: Causal World Modeling with Multi-Chunk Prediction

TL;DR

提出Next Forcing多块预测框架，提升高帧率视频生成的训练速度和准确性，达成94.1% RoboTwin成功率。

cs.CV 🔴 高级 2026-06-10 66 次浏览

Gangwei Xu Qihang Zhang Jiaming Zhou Xing Zhu Yujun Shen Xin Yang Yinghao Xu

视频生成因果世界建模多块预测训练加速物理一致性

核心发现

方法论

本文提出的Next Forcing框架基于多块预测（Multi-Chunk Prediction, MCP）思想，通过在训练中引入多个未来时间块的辅助预测模块，形成因果链条，从而增强模型对未来动态的理解。该方法在主模型基础上加入轻量级的MCP模块，分别预测未来1、2、3块视频内容，融合中间层特征以提升预测精度。训练过程中，MCP模块采用比主模型更高的时间偏移，增强对未来动态的依赖。通过多层特征融合和因果链设计，模型在训练收敛速度和最终性能上均优于传统单块预测方法。实验中，Next Forcing在RoboTwin和PhyWorld两个基准上表现出色，尤其在50fps高帧率下，实现了2.3倍的训练加速和显著的生成质量提升。

关键结果

在RoboTwin基准上，Next Forcing在训练5k步时达成94.1%的成功率，较LingBot-VA提升29.7个百分点，训练速度提升2.3倍，且在50fps下实现了2倍推理加速。
在PhyWorld物理一致性评估中，Next Forcing显著降低了FVD（Frechet Video Distance）指标，提升模型对物理规律的理解能力，Abnormal Ratio降低至8%，优于对比方法。
在大规模通用视频预训练中，Next Forcing使FVD指标降低超过50%，验证其在非机器人场景中的泛化能力，且在多样化场景中表现出更强的动态理解和物理一致性。

研究意义

该研究突破了视频生成中因果关系建模的瓶颈，通过引入多块预测机制，有效缓解了传统方法在高帧率环境下的训练缓慢和预测短视问题。其在机器人操控、物理模拟及通用视频理解等多个应用场景中具有重要意义，为未来自主智能体的视觉认知提供了更为高效和精确的建模工具。特别是在高速动态场景中，模型能更好地捕捉场景演变的深层次因果关系，有助于实现更自然、更真实的视频生成。

技术贡献

本文的核心技术创新在于引入多块预测（MCP）机制，结合多层特征融合和因果链设计，有效增强模型对未来动态的建模能力。通过在训练中实现多尺度、多时间偏移的预测目标，显著提升训练效率和预测准确性。该方法在保持模型结构简洁的基础上，赋予模型更强的长时记忆和因果推理能力，为视频生成领域提供了一种新颖的训练范式。此外，提出的并行推理机制也极大提升了推理速度，为实际应用中的实时生成提供可能。

新颖性

这是首个将多块预测思想系统性引入视频因果建模的研究，突破了传统单块预测的短视局限。不同于以往仅在语言模型中应用多步预测，本文将其成功迁移到连续视频生成中，结合多层特征融合和因果链设计，创新性地实现了多尺度、多时间偏移的预测目标，显著提升训练效率和生成质量。其在高帧率环境下的优越表现，标志着视频生成技术迈入了长时因果推理的新时代。

局限性

尽管Next Forcing在训练速度和生成质量上表现优异，但其引入的多块预测机制增加了模型复杂度和参数量，可能在极端资源受限的场景中面临挑战。
在某些极端复杂或非线性动态场景中，模型仍可能出现预测偏差，尤其是在训练数据不足或多样性不足时，模型的泛化能力有待进一步验证。
未来需要探索更高效的特征融合策略和因果链优化方法，以降低计算成本并提升模型在多样场景下的鲁棒性。

未来方向

未来的研究方向包括进一步优化多块预测的因果链结构，提升模型在极端复杂场景中的表现；结合强化学习或自监督机制，增强模型的长时预测能力；以及将该框架扩展到多模态视频生成和多任务学习中，推动自主智能体在复杂环境中的感知与决策能力。

AI 总览摘要

视频作为反映现实世界动态变化的主要媒介，已成为人工智能研究的重要方向之一。传统的自动回归视频生成方法多依赖于逐帧预测，面临训练缓慢、预测短视和推理速度不足的挑战。尤其在高帧率场景下，邻近帧之间的视觉相似性使得模型容易陷入外观复制的捷径，难以学习到深层次的场景演变规律。为解决这一问题，本文提出了Next Forcing框架，借鉴大规模语言模型中的多-token预测思想，将其迁移到连续视频生成中，形成多块预测（Multi-Chunk Prediction, MCP）机制。

该方法在主模型基础上引入一系列轻量级的辅助预测模块，分别预测未来1、2、3块视频内容，形成因果链条，增强模型对未来动态的因果推理能力。通过融合多层中间特征，模型在训练中获得了更丰富的时序信息，显著加快了收敛速度，同时提升了预测准确性。在RoboTwin和PhyWorld两个基准测试中，Next Forcing均取得了优异表现，尤其在50fps高帧率下，实现了2.3倍的训练加速和2倍的推理速度提升。

实验结果显示，该框架不仅在机器人操控任务中达到了94.1%的最高成功率，还在物理规律遵循性评估中显著优于现有方法，验证了其在理解复杂动态场景中的潜力。更重要的是，预训练实验表明，Next Forcing具备良好的泛化能力，能在多样化的通用视频数据上实现超过50%的FVD指标降低。

总体而言，Next Forcing为高效、深度的因果世界建模提供了一种创新途径。它突破了传统单块预测的局限，赋予模型更强的长时记忆和因果推理能力，为未来自主智能体的视觉认知和动态理解奠定了坚实基础。未来工作将集中在模型结构优化、多模态扩展以及在实际应用中的部署效率提升，推动视频生成技术迈向更高的智能水平。

深度分析

研究背景

视频作为模拟和理解现实世界动态的核心工具，经过多年的发展，已从简单的逐帧预测逐步演变为复杂的因果建模。早期方法如基于生成对抗网络（GAN）和变分自编码器（VAE）在静态图像生成中取得突破，但在连续视频生成中仍面临训练不稳定、生成质量有限的问题。近年来，基于自回归（autoregressive）模型的研究逐渐兴起，代表方法包括VideoGPT、DVD-GAN等，它们通过逐帧预测实现了较好的连续性，但在高帧率环境下容易出现短视问题，即模型过度依赖邻近帧的外观相似性，导致对场景演变的理解不足。

同时，Transformer架构的引入，如Video Transformer，极大提升了模型的表达能力，但训练速度依然缓慢，尤其在长时序建模方面存在瓶颈。为解决这些问题，研究者开始探索多块预测、多尺度融合等策略，以增强模型的因果推理能力。国内外诸多工作如LingBot-VA、DreamZero等，已在机器人操控和物理模拟任务中取得一定成果，但仍未充分解决高帧率下的训练效率和预测准确性问题。

核心问题

当前视频生成模型在高帧率环境中表现出明显的瓶颈，主要源于“短视”或“myopic supervision”问题，即模型只关注当前块的预测，忽略了未来长距离的动态演变。这导致模型在训练中容易陷入外观复制的捷径，难以学习到深层次的因果关系，限制了其在复杂场景中的泛化能力。特别是在50fps等高速场景下，邻近帧几乎一致，模型更易陷入短视陷阱，训练收敛缓慢，生成质量受限。解决这一问题的关键在于引入多尺度、多时间偏移的未来预测目标，从而强制模型学习场景的深层动态规律。

核心创新

本文的创新点主要在于引入多块预测（MCP）机制，形成因果链条，显著改善模型对未来动态的建模能力。具体创新包括：

�� 多块预测：在训练中同时预测未来1、2、3块视频内容，增强模型的长时记忆和因果推理能力。
�� 多层特征融合：从模型不同深度提取中间特征，融合后作为预测输入，提升模型对不同尺度信息的利用。
�� 因果链设计：每个预测块依赖前一块的输出，形成因果关系链，有效引导模型学习场景演变的因果规律。
�� 并行推理机制：在推理阶段，保留辅助模块，实现多块视频的并行预测，大幅提升推理速度。
�� 训练策略优化：采用比主模型更高的时间偏移和噪声水平，强化模型对未来动态的依赖，避免短视。

方法详解

�� 构建基础模型：采用30层Transformer架构，编码视频潜在表示。
�� 多块预测设计：在训练中引入三个辅助MCP模块，分别预测未来1、2、3块视频内容。
�� 特征融合：在模型不同深度（第4、12、20、30层）提取隐藏状态，进行拼接和MLP压缩，作为多尺度特征融合的输入。
�� 时间偏移与噪声注入：对目标视频潜在进行时间偏移，采用Flow Matching方法加入不同水平的噪声，增强模型对未来动态的鲁棒性。
�� 因果链构建：每个预测深度依赖前一深度的输出，形成因果链条，利用轻量级Transformer块进行未来速度预测。
�� 损失函数设计：结合主模型的Flow Matching损失和每个预测块的辅助损失，整体优化模型。
�� 训练过程：采用大规模多样化数据集，逐步优化模型参数，确保多尺度、多时间偏移的预测能力。
�� 推理阶段：可选择性丢弃辅助模块实现纯模型推理，或保留实现多块并行预测，提升推理速度。

实验设计

实验在RoboTwin和PhyWorld两个基准上进行，前者涵盖50个机器人操控任务，后者测试模型对物理规律的遵循能力。训练数据包括2500个机器人示范和25000个随机场景，采用64GPU训练，最大训练步数50k。模型超参数包括：主模型时间偏移smain=5，辅助模块smcp=10，块大小M最大为4。对比方法包括LingBot-VA、DreamZero等，指标主要为成功率（RoboTwin）和FVD（PhyWorld）。同时进行多帧率（12fps、50fps）和不同训练步数的对比，评估训练速度和生成质量。还设计消融实验验证多层特征融合、因果链深度、噪声水平等设计的贡献。

结果分析

在RoboTwin基准上，Next Forcing在50fps下训练5k步即达成94.1%的成功率，较LingBot-VA提升29.7个百分点，且训练速度提升2.3倍。与传统单块预测模型相比，显著缩短收敛时间，且在高帧率环境中表现尤为优越。在PhyWorld测试中，Next Forcing的FVD指标降低至4.7，优于LingBot-VA的5.3，物理一致性明显增强。预训练实验显示，在大规模通用视频数据上，FVD指标降低超过50%，验证了模型的泛化能力。消融研究表明，多层特征融合和因果链设计对性能提升起到关键作用，噪声水平的调节也显著影响模型的长时预测能力。

应用场景

该技术适用于机器人操控、虚拟现实、物理模拟等场景，尤其在需要高帧率、高精度动态预测的应用中表现突出。通过提升训练效率和推理速度，能够实现更自然、更真实的虚拟环境生成，为自主机器人、增强现实等行业带来革命性变革。未来还可结合多模态信息（如声音、触觉）扩展应用范围，推动多感知融合的智能场景理解。

局限与展望

尽管Next Forcing在训练速度和生成质量方面表现优异，但其引入的多块预测机制增加了模型复杂度和参数规模，可能在资源受限场景中难以部署。此外，模型在极端复杂或非线性场景中仍存在预测偏差，尤其在训练数据不足或多样性有限的情况下，泛化能力有待提升。未来需探索更高效的特征融合策略和因果链优化方法，以降低计算成本并增强鲁棒性。

通俗解读非专业人士也能看懂

想象你在做一份复杂的菜肴。每一步都需要根据前面做的内容来决定下一步，但如果你只关注眼前的步骤，很可能会忽略整体的味道变化。传统的视频生成模型就像只关注当前的步骤，只模仿眼前的场景，没有考虑未来会发生什么，导致生成的画面看起来很像复制粘贴，没有连贯性。

而Next Forcing就像一个聪明的厨师，他不仅关注当前的步骤，还会提前预测未来几步的变化，确保每一步都符合整体的菜肴风味。它通过在训练中让模型同时学习未来几步的内容，让模型变得更聪明，能理解场景的变化规律。这样，生成的视频就像一段连贯的故事，而不是一张静止的图片拼接起来的。它的核心思想是让模型学会“预见”未来，而不是只“看见”现在，从而让视频变得更真实、更自然。

简单解释像给14岁少年讲一样

想象你在玩一个超级复杂的拼图游戏，你不仅要拼出眼前的那一块，还要提前猜到接下来几块拼图会长什么样。传统的方法就像只专注于眼前的那一块拼图，拼好了就算完成，但你不知道接下来会发生什么。而新方法就像一个聪明的朋友，他会帮你预测未来几块拼图的样子，让你提前准备，拼得更快、更好。

在视频生成中也是一样，旧的方法只关注当前的画面，像只看眼前的拼图，容易陷入只复制邻近帧的陷阱，不能理解场景的变化。而新方法通过预测未来几帧，帮助模型理解场景的变化规律，就像提前知道拼图的样子一样。这不仅让生成的视频更连贯、更真实，还能大大加快训练速度。就像你有了这个聪明的朋友，拼图变得更快更好，视频也变得更自然、更像真实世界的样子。

术语表

Multi-Chunk Prediction (多块预测)

一种在训练中同时预测多个未来时间块的视频生成方法，增强模型对长时动态的理解能力。

本文中通过多块预测形成因果链，改善模型对未来场景的推理。

因果链 (Causal Chain)

由多个预测模块依次连接，前一块的输出作为后一块的输入，模拟场景演变的因果关系。

设计中用以增强模型对时间序列的因果推理能力。

Flow Matching (流匹配)

一种生成模型训练方法，通过学习速度场将噪声样本变换为真实数据。

用于训练视频潜在表示的生成模型。

Transformer (变换器)

一种基于注意力机制的深度学习架构，擅长处理序列数据。

本文采用30层Transformer作为主模型架构。

Frechet Video Distance (FVD)

衡量生成视频与真实视频差异的指标，数值越低越好。

用于评估模型生成质量。

物理一致性 (Physical Law Adherence)

模型生成的视频是否符合自然界的物理规律。

在PhyWorld基准中作为评估指标。

噪声偏移 (Timestep Shift)

在训练中对噪声水平进行偏移，以增强模型对不同噪声水平的鲁棒性。

本文中用于多块预测的噪声注入策略。

多尺度特征融合 (Multi-Scale Feature Fusion)

结合不同深度层的特征信息，以丰富模型的表示能力。

提升多块预测的预测精度。

并行推理 (Parallel Inference)

在推理时同时预测多个时间块，加快生成速度。

通过保留辅助模块实现。

物理模拟 (Physical Simulation)

利用模型生成符合物理规律的视频，用于验证模型理解能力。

在PhyWorld中进行评估。

开放问题这项研究留下的未解疑问

1 尽管多块预测显著提升了模型的长时动态建模能力，但在极端复杂或非线性场景中，模型仍可能出现偏差，尤其在训练数据不足或多样性有限的情况下，泛化能力仍需验证。未来应探索更高效的特征融合策略和因果链优化方法，以降低计算成本并增强鲁棒性。
2 目前的模型主要在单模态视频数据上训练和评估，如何将多模预测机制扩展到多模态场景（如视频+声音+触觉）仍是一个开放问题，未来需要结合多模态信息实现更丰富的场景理解。
3 在推理阶段，辅助模块的保留虽然提升速度，但可能引入误差累积，未来研究应关注多块预测的误差控制和模型稳定性，确保长时预测的准确性。
4 模型在高帧率环境下表现优异，但在极低帧率或帧间变化剧烈的场景中效果尚未充分验证，未来应探索适应不同帧率的动态调整机制。
5 训练过程中对多层特征融合和因果链设计的超参数（如融合层数、偏移水平）还需系统优化，以实现更好的性能平衡。

应用场景

近期应用

机器人操控增强

利用Next Forcing提升机器人在高速动态环境中的视觉预测能力，实现更精准的操控和交互，适用于工业自动化和服务机器人。

虚拟现实内容生成

在虚拟环境中快速生成高质量、连贯的动态场景，提升沉浸感和交互体验，适合游戏和虚拟仿真应用。

物理仿真与科学研究

用于模拟复杂物理过程，帮助科学家验证理论模型，推动物理、天文等领域的虚拟实验。

远期愿景

自主智能体的视觉认知

赋予自主机器人和智能系统更强的场景理解和预测能力，推动自主导航、操作和决策的智能化。

跨模态多任务视频理解

结合多模态信息实现多任务、多场景的动态理解，推动智能感知与交互的全面发展。

原文摘要

Autoregressive video generation has emerged as a powerful paradigm for World Action Models (WAMs). However, existing approaches suffer from slow training convergence and limited converged accuracy, particularly at high frame rates, as the training supervision is confined to the current chunk without explicit signals about future dynamics; they also suffer from slow inference due to iterative video denoising. In this paper, we present Next Forcing, a multi-chunk prediction (MCP) framework for causal world modeling that enables faster training, higher accuracy, and accelerated inference. Inspired by multi-token prediction in large language models, Next Forcing introduces an MCP training objective that augments the main model with lightweight auxiliary MCP modules to simultaneously denoise video chunks at multiple future temporal horizons (next$^1$, next$^2$, next$^3$ chunks). These MCP modules form a causal chain across prediction depths, where intermediate features fused from multiple layers of the main model are leveraged to predict future dynamics, allowing near-future predictions to inform farther-future ones and providing dense multi-scale temporal supervision back to the main model. During training, the MCP modules significantly accelerate convergence and improve converged accuracy, especially at high frame rates: at 50 fps, Next Forcing achieves a 93.1% relative improvement over LingBot-VA at 5k training steps and 2.3x faster convergence, and establishes new state-of-the-art results on the RoboTwin benchmark (94.1/93.5% on Clean/Random). At inference, the MCP modules can be retained to predict the next video chunk in parallel with the current one, achieving 2x inference acceleration. Next Forcing also demonstrates significant improvements on PhyWorld, a benchmark evaluating adherence to physical laws in video generation, and over 50% FVD reduction on general video pretraining.

cs.CV

参考文献 (20)

Causal World Modeling for Robot Control

Lin Li, Qihang Zhang, Yiming Luo 等

2026 79 引用 ⭐ 高影响力查看解读 →

How Far is Video Generation from World Model: A Physical Law Perspective

Bingyi Kang, Yang Yue, Rui Lu 等

2024 183 引用 ⭐ 高影响力查看解读 →

World Action Models are Zero-shot Policies

Seonghyeon Ye, Yunhao Ge, Kaiyuan Zheng 等

2026 111 引用 ⭐ 高影响力查看解读 →

TinyVLA: Toward Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation

Junjie Wen, Yichen Zhu, Jinming Li 等

2024 341 引用查看解读 →

WorldVLA: Towards Autoregressive Action World Model

Jun Cen, Chaohui Yu, Hangjie Yuan 等

2025 203 引用查看解读 →

Towards Accurate Generative Models of Video: A New Metric & Challenges

Thomas Unterthiner, Sjoerd van Steenkiste, Karol Kurach 等

2018 1275 引用查看解读 →

Dreamitate: Real-World Visuomotor Policy Learning via Video Generation

Junbang Liang, Ruoshi Liu, Ege Ozguroglu 等

2024 90 引用查看解读 →

Flow Matching for Generative Modeling

Y. Lipman, Ricky T. Q. Chen, Heli Ben-Hamu 等

2022 4854 引用查看解读 →

Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion

Xun Huang, Zhengqi Li, Guande He 等

2025 371 引用查看解读 →

Rolling Forcing: Autoregressive Long Video Diffusion in Real Time

Kunhao Liu, Wenbo Hu, Jiale Xu 等

2025 125 引用查看解读 →

X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model

Jinliang Zheng, Jianxiong Li, Zhihao Wang 等

2025 134 引用查看解读 →

GAIA-1: A Generative World Model for Autonomous Driving

Anthony Hu, Lloyd Russell, Hudson Yeo 等

2023 567 引用查看解读 →

Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware

Tony Zhao, Vikash Kumar, S. Levine 等

2023 1773 引用查看解读 →

OpenVLA: An Open-Source Vision-Language-Action Model

Moo Jin Kim, Karl Pertsch, Siddharth Karamcheti 等

2024 2355 引用查看解读 →

Wan: Open and Advanced Large-Scale Video Generative Models

Ang Wang, Baole Ai, Bin Wen 等

2025 1834 引用查看解读 →

Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model

John Won, Kyungmin Lee, Huiwon Jang 等

2025 14 引用查看解读 →

Being-H0: Vision-Language-Action Pretraining from Large-Scale Human Videos

Hao Luo, Yicheng Feng, Wanpeng Zhang 等

2025 73 引用查看解读 →

π0: A Vision-Language-Action Flow Model for General Robot Control

Kevin Black, Noah Brown, Danny Driess 等

2024 1824 引用查看解读 →

GR00T N1: An Open Foundation Model for Generalist Humanoid Robots

Nvidia, Johan Bjorck, Fernando Castañeda 等

2025 853 引用查看解读 →

mimic-video: Video-Action Models for Generalizable Robot Control Beyond VLAs

Jonas Pai, Liam Achenbach, Victoriano Montesinos 等

2025 58 引用查看解读 →

Next Forcing: Causal World Modeling with Multi-Chunk Prediction

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

Multi-Chunk Prediction (多块预测)

因果链 (Causal Chain)

Flow Matching (流匹配)

Transformer (变换器)

Frechet Video Distance (FVD)

物理一致性 (Physical Law Adherence)

噪声偏移 (Timestep Shift)

多尺度特征融合 (Multi-Scale Feature Fusion)

并行推理 (Parallel Inference)

物理模拟 (Physical Simulation)

开放问题 这项研究留下的未解疑问

应用场景

近期应用

机器人操控增强

虚拟现实内容生成

物理仿真与科学研究

远期愿景

自主智能体的视觉认知

跨模态多任务视频理解

原文摘要

参考文献 (20)

相关论文

JanusMesh: Fast and Zero-Shot 3D Visual Illusion Generation via Cross-Space Denoising

UNIEGO: Proxies as Mediators for Unified Egocentric Video Representation Learning

SSD: Spatially Speculative Decoding Accelerates Autoregressive Image Generation

CalTennis: Large Multi-View Tennis Video Dataset and Benchmark of Monocular-to-3D Pose Estimation

Unified Multimodal Autoregressive Modeling with Shared Context-Visual Tokenizer is Key to Unification

EventDrive: Event Cameras for Vision-Language Driving Intelligence

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问