核心发现
方法论
本研究通过质性分析和定向探测实验,揭示视频生成模型的推理能力主要在扩散去噪步骤中涌现,而非在视频帧之间。提出Chain-of-Steps (CoS) 机制,模型在早期去噪步骤中探索多个候选解,并逐步收敛到最终答案。此外,研究还发现了几个关键的推理行为,包括工作记忆、自我纠正和增强,以及感知先于行动的策略。
关键结果
- 研究发现,视频生成模型在早期去噪步骤中会探索多个可能的解决方案,并在后期步骤中逐步收敛到最终答案。这一过程被称为Chain-of-Steps (CoS)。通过噪声扰动分析,发现特定去噪步骤的干扰会显著降低模型性能,而逐帧扰动的影响较小。
- 在VBVR-Wan2.2模型上进行的实验表明,通过在推理过程中合并不同随机种子的潜在轨迹,模型的推理能力得到了显著提升,最终得分从0.685提高到0.716。
- 通过对Diffusion Transformer的细粒度分析,发现早期层编码密集的感知结构,中间层执行推理,后期层整合潜在表示。这种自我演化的功能专门化在模型的推理过程中起到了关键作用。
研究意义
本研究系统性地揭示了视频生成模型中推理能力的涌现机制,挑战了传统的Chain-of-Frames假设,提出了Chain-of-Steps (CoS) 机制。这一发现为未来更好地利用视频模型的内在推理动态提供了理论基础,可能会对视频生成领域的学术研究和工业应用产生深远影响,尤其是在需要复杂推理能力的场景中,如自动驾驶、智能监控等。
技术贡献
本研究的技术贡献在于揭示了视频生成模型中推理能力的涌现机制,提出了Chain-of-Steps (CoS) 机制,挑战了传统的Chain-of-Frames假设。通过对Diffusion Transformer的细粒度分析,揭示了模型在去噪步骤中的自我演化功能专门化。此外,提出了一种简单的无训练策略,通过合并不同随机种子的潜在轨迹来提高推理能力,为视频生成模型的推理能力提供了新的工程可能性。
新颖性
本研究首次系统性地揭示了视频生成模型中推理能力的涌现机制,提出了Chain-of-Steps (CoS) 机制,挑战了传统的Chain-of-Frames假设。与现有的研究不同,本研究通过质性分析和定向探测实验,揭示了推理能力主要在扩散去噪步骤中涌现,而非在视频帧之间。
局限性
- 本研究主要基于VBVR-Wan2.2模型进行实验,结果的普适性可能受限于模型的特定架构和训练数据集。
- 虽然提出了无训练策略来提高推理能力,但该策略的实际效果可能受限于模型的初始设置和随机种子的选择。
- 本研究主要关注视频生成模型的推理能力,未深入探讨其他可能影响模型性能的因素,如数据集的多样性和复杂性。
未来方向
未来的研究可以进一步探索不同架构和数据集对推理能力涌现的影响。此外,可以研究如何将本研究提出的Chain-of-Steps (CoS) 机制应用于其他类型的生成模型,如文本生成模型和图像生成模型。还可以探索如何通过优化模型的初始设置和随机种子选择来进一步提高推理能力。
AI 总览摘要
近年来,视频生成模型在电影、游戏和娱乐行业中取得了显著进展。然而,大多数研究主要关注于生成高保真、逼真且视觉上吸引人的视频。近期的研究揭示了一种意想不到的现象:基于扩散的视频模型在时空一致的视觉环境中展现出非平凡的推理能力。此前的工作将这一行为归因于Chain-of-Frames (CoF) 机制,认为推理在视频帧之间顺序展开。尽管这一发现令人着迷,但视频推理的底层机制仍然大多未被探索。随着大规模视频推理数据集和开源基础模型的发布,我们现在有机会系统地研究这一能力。利用这些资源,我们进行了首次全面的视频推理解剖,揭示了一种根本不同的机制:基于扩散的视频模型中的推理主要在去噪过程中涌现,而不是在帧之间。
我们的关键发现挑战了现有的Chain-of-Frames (CoF) 假设,该假设认为视频推理在帧之间顺序展开。相反,我们发现推理并不主要沿着时间维度进行,而是在扩散去噪步骤中涌现,并在生成过程中逐步展开。我们将这一机制称为Chain-of-Steps (CoS)。这一发现表明了对基于扩散的视频模型如何推理的根本不同的看法。由于对整个序列的双向注意力,推理在每个去噪步骤中同时在所有帧之间进行,随着过程的展开,中间假设逐步得到改进。质性分析揭示了令人着迷的动态。在早期去噪步骤中,模型通常会考虑多种可能性(填充替代轨迹或叠加候选结果),然后在后期步骤中逐渐收敛到最终解决方案。此外,噪声扰动分析表明,在特定去噪步骤中的干扰会显著降低性能,而逐帧扰动的影响较小。进一步的信息传播分析表明,结论主要在中间扩散步骤中得到巩固。
此外,我们发现视频推理模型中出现了几个令人惊讶的涌现行为,这些行为与早期对大型语言模型(LLMs)的研究中观察到的行为惊人地相似。首先,这些模型表现出一种形式的记忆(例如,物体持久性)。其次,我们观察到视频模型可以在生成过程中进行自我纠正和增强。第三,视频模型表现出一种感知先于行动的策略,在早期步骤中优先定位目标物体,然后后续步骤执行更复杂的推理和操作。
我们进一步通过在单个扩散步骤中检查令牌表示,对Diffusion Transformer进行了细粒度分析。这揭示了网络中自我演化、多样化、任务无关的功能层。在扩散步骤中,早期层专注于密集的感知理解(例如,分离前景和背景,识别基本几何结构),而一组关键的中间层执行大部分推理。最后的层则整合潜在表示以生成下一步的视频状态。
受到这些见解的启发,我们提出了一种简单的无训练策略作为概念验证,展示了如何通过合并由三个具有不同随机种子的相同模型生成的潜在轨迹来提高推理能力。这种方法鼓励模型在生成过程中保留更丰富的候选推理轨迹。因此,模型探索更为多样的推理路径,更有可能收敛到正确的解决方案,展示了利用我们的发现设计更有效的视频推理系统的方法。
深度解读
原文摘要
Recent advances in video generation have revealed an unexpected phenomenon: diffusion-based video models exhibit non-trivial reasoning capabilities. Prior work attributes this to a Chain-of-Frames (CoF) mechanism, where reasoning is assumed to unfold sequentially across video frames. In this work, we challenge this assumption and uncover a fundamentally different mechanism. We show that reasoning in video models instead primarily emerges along the diffusion denoising steps. Through qualitative analysis and targeted probing experiments, we find that models explore multiple candidate solutions in early denoising steps and progressively converge to a final answer, a process we term Chain-of-Steps (CoS). Beyond this core mechanism, we identify several emergent reasoning behaviors critical to model performance: (1) working memory, enabling persistent reference; (2) self-correction and enhancement, allowing recovery from incorrect intermediate solutions; and (3) perception before action, where early steps establish semantic grounding and later steps perform structured manipulation. During a diffusion step, we further uncover self-evolved functional specialization within Diffusion Transformers, where early layers encode dense perceptual structure, middle layers execute reasoning, and later layers consolidate latent representations. Motivated by these insights, we present a simple training-free strategy as a proof-of-concept, demonstrating how reasoning can be improved by ensembling latent trajectories from identical models with different random seeds. Overall, our work provides a systematic understanding of how reasoning emerges in video generation models, offering a foundation to guide future research in better exploiting the inherent reasoning dynamics of video models as a new substrate for intelligence.
参考文献 (20)
Similarity of Neural Network Representations Revisited
Simon Kornblith, Mohammad Norouzi, Honglak Lee 等
Denoising Diffusion Probabilistic Models
Jonathan Ho, Ajay Jain, P. Abbeel
Video models are zero-shot learners and reasoners
Thaddaus Wiedemer, Yuxuan Li, Paul Vicol 等
CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer
Zhuoyi Yang, Jiayan Teng, Wendi Zheng 等
What Is a Cognitive Map? Organizing Knowledge for Flexible Behavior.
T. Behrens, Timothy H. Muller, James C. R. Whittington 等
FutureSightDrive: Thinking Visually with Spatio-Temporal CoT for Autonomous Driving
Shuang Zeng, Xinyuan Chang, Mengwei Xie 等
ReAct: Synergizing Reasoning and Acting in Language Models
Shunyu Yao, Jeffrey Zhao, Dian Yu 等
Wan: Open and Advanced Large-Scale Video Generative Models
Ang Wang, Baole Ai, Bin Wen 等
CV-VAE: A Compatible Video VAE for Latent Generative Video Models
Sijie Zhao, Yong Zhang, Xiaodong Cun 等
Generating Images with Multimodal Language Models
Jing Yu Koh, Daniel Fried, R. Salakhutdinov
GoT-R1: Unleashing Reasoning Capability of MLLM for Visual Generation with Reinforcement Learning
Chengqi Duan, Rongyao Fang, Yuqing Wang 等
Planning in the brain.
M. Mattar, M. Lengyel
Uni-cot: Towards Unified Chain-of-Thought Reasoning Across Text and Vision
Luozheng Qin, Jia Gong, Yuqing Sun 等
Phased DMD: Few-step Distribution Matching Distillation via Score Matching within Subintervals
Xiangyu Fan, Zesong Qiu, Zhuguanyu Wu 等
LMFusion: Adapting Pretrained Language Models for Multimodal Generation
Weijia Shi, Xiaochuang Han, Chunting Zhou 等
Vchitect-2.0: Parallel Transformer for Scaling Up Video Diffusion Models
Weichen Fan, Chenyang Si, Junhao Song 等
RULER-Bench: Probing Rule-based Reasoning Abilities of Next-level Video Generation Models for Vision Foundation Intelligence
Xuming He, Zehao Fan, Hengjia Li 等
MetaMorph: Multimodal Understanding and Generation via Instruction Tuning
Shengbang Tong, David Fan, Jiachen Zhu 等