YoCausal: How Far is Video Generation from World Model? A Causality Perspective

TL;DR

YoCausal利用逆向视频和认知科学启发的双层指标，评估13个视频扩散模型的因果理解能力。

cs.CV 🔴 高级 2026-05-29 69 次浏览

You-Zhe Xie Yu-Hsuan Li Jie-Ying Lee Kaipeng Zhang Yu-Lun Liu Zhixiang Wang

因果推理视频生成认知科学模型评估扩散模型

核心发现

方法论

本研究提出了基于认知科学中的Expectation Violation（VoE）范式的YoCausal双层基准。通过对真实视频进行零成本的时间逆转，生成自然的反事实样本，建立了可扩展的评估体系。第一层指标是逆惊讶指数（RSI），利用去噪损失量化模型对时间箭头的感知；第二层指标是因果认知指数（CCI），结合视觉-语言模型（VLM）将数据集划分为因果与非因果子集，从而区分模型对因果关系的真正理解与统计偏差。该方法避免了合成数据的局限，直接利用真实视频实现因果推理的评估，突破了以往物理或合成场景的限制。通过对13个主流视频扩散模型的系统测试，揭示了模型对时间箭头的感知与因果理解之间的差距，强调了模型在因果推理方面的不足。

关键结果

在Level 1 RSI指标中，部分模型（如Wan2.2-A14B）超过了50%的随机猜测基线，表现出一定的时间箭头感知能力，但整体仍远低于人类水平（人类最高RSI达87.3%），显示出模型对时间方向的敏感性不足。
在Level 2 CCI指标中，少数模型（如Wan2.2-A14B和CogVideoX1.5-5B）表现出初步的因果认知能力，模型与人类的差距仍明显，说明模型对因果关系的理解尚未成熟。
模型的参数规模和架构（如从UNet到DiT）对因果认知有正向促进作用，规模越大、结构越复杂，模型表现越接近人类，验证了规模效应的存在。

研究意义

本研究首次提出面向真实场景的因果认知评估体系，为理解视频生成模型是否具备因果推理能力提供了科学工具。突破了以往依赖合成或受控数据的限制，极大拓展了模型评估的场景多样性。其结果表明，当前先进模型仍主要捕捉统计时间偏差，缺乏深层次的因果理解，为未来构建真正的世界模型指明了方向。该方法的引入，有助于推动AI在因果推理、场景理解和自主决策等核心能力上的突破，具有深远的学术和应用价值。

技术贡献

本文提出了基于逆向视频的双层因果认知评估框架，结合自然反事实样本和VLM划分因果关系，有效区分模型的时间感知与因果理解。创新点包括：• 利用零成本的时间逆转生成反事实样本，避免合成场景的局限；• 设计逆惊讶指数（RSI）量化模型对时间箭头的敏感性；• 引入因果认知指数（CCI）结合VLM实现因果关系的自动划分与评估；• 通过多域真实视频数据，突破了传统物理或合成场景的限制，提升了评估的广泛适用性。该方法为未来因果推理模型的训练和评估提供了新的思路和工具。

新颖性

本研究首次将认知科学中的VoE范式引入视频生成模型的因果理解评估中，利用真实视频的零成本逆向操作，建立了可扩展且无需合成数据的因果认知基准。相比以往依赖合成场景或小规模控制实验的方法，YoCausal实现了大规模、多域的真实场景评估，显著提升了评估的现实意义和适用性。其创新在于：• 采用自然反事实样本，突破了合成数据的局限；• 结合VLM实现自动化因果关系划分，减少人为偏差；• 设计双层指标区分时间感知与因果理解，提供更细粒度的分析。这些创新使得模型的因果认知能力得到了更全面、科学的检验。

局限性

在某些场景（如牛顿摆）中，前后序列几乎无差异，RSI指标难以区分模型对时间箭头的敏感性，限制了评估的普适性。
去噪损失的计算依赖模型的权重信息，难以对闭源模型进行外部评估，限制了方法的普适性和可扩展性。
模型在复杂因果关系或长序列中的表现仍有限，未来需引入更丰富的因果推理机制和多模态信息融合。

未来方向

未来将探索引入多模态信息（如声音、文本）以增强因果推理能力，扩展评估到更复杂的场景和长序列中。同时，结合因果推理的自监督训练策略，提升模型的因果理解深度。此外，推动算法的可解释性研究，帮助理解模型内部的因果推理机制，为构建更具自主性和可信度的世界模型奠定基础。

AI 总览摘要

在人工智能的长远追求中，构建具有深层因果理解能力的模型一直是核心目标之一。尽管视频生成技术近年来取得了显著突破，尤其是基于扩散模型（如Stable Diffusion、Denoising Diffusion Probabilistic Models）在生成逼真视频方面表现优异，但其是否真正理解因果关系，仍是一个悬而未决的问题。传统评估多依赖合成数据或受控场景，难以反映模型在复杂真实世界中的因果推理能力。

本研究提出了YoCausal，一个基于认知科学中Expectation Violation（VoE）范式的双层因果认知评估体系。通过对真实视频进行零成本的时间逆转，生成自然的反事实样本，避免了合成场景的局限。这一创新使得模型在真实多样的场景中被检验其对时间箭头和因果关系的敏感性。第一层指标是逆惊讶指数（RSI），利用去噪损失量化模型对时间方向的感知能力；第二层指标是因果认知指数（CCI），结合视觉-语言模型（VLM）自动划分因果与非因果子集，区分模型对因果关系的真正理解与统计偏差。

通过对13个主流视频扩散模型的系统评估，结果显示：虽然部分模型（如Wan2.2-A14B）在RSI指标上超过50%的随机猜测基线，表现出一定的时间箭头感知，但整体仍远低于人类水平（人类最高RSI达87.3%）。在CCI指标方面，少数模型表现出初步的因果认知能力，但差距依然明显。这表明当前模型主要捕捉统计时间偏差，缺乏深层次的因果理解。参数规模和架构的演进（如从UNet到DiT）对因果认知具有正向促进作用，验证了模型复杂度的提升有助于因果推理能力的增强。

本研究的意义在于：首次提出了面向真实场景的因果认知评估体系，为理解和提升视频生成模型的因果推理能力提供了科学工具。突破了以往依赖合成或受控数据的局限，极大拓展了评估场景的多样性，为未来构建具有深层因果理解的自主智能系统提供了理论基础和实践路径。该方法的引入，有望推动AI在因果推理、场景理解和自主决策等核心能力上的突破，具有重要的学术价值和实际应用前景。

深度分析

研究背景

随着深度学习技术的发展，视频生成模型（如扩散模型）在图像合成、动画制作等领域取得了巨大成功。特别是基于扩散机制的模型（如Stable Diffusion、Denoising Diffusion Probabilistic Models）在生成高质量、连续性强的视频方面表现出色。然而，这些模型的核心能力仍停留在统计模拟层面，是否真正理解因果关系、掌握事件之间的因果逻辑，仍未得到系统验证。此前的研究多关注模型的物理一致性（如Physion、PhysWorld等物理场景基准），但这些方法多依赖合成或受控的实验场景，难以反映模型在真实复杂环境中的因果推理能力。认知科学中的VoE范式提供了一种有效的检测因果认知的方法，即通过观察个体对反事实事件的“惊讶”程度，判断其是否具备因果理解。将这一思想引入视频生成模型的评估中，成为本研究的创新核心。

核心问题

当前视频生成模型在时间感知方面表现尚可，但在深层次的因果理解方面存在明显不足。传统评估方法多依赖合成数据或受控场景，缺乏对模型在真实多样环境中的因果推理能力的检验。模型是否能区分因果事件与随机事件，是否能理解事件的因果链条，仍未有统一、科学的评估体系。此外，现有指标难以区分模型对时间箭头的感知与对因果关系的理解，导致评估结果具有一定的偏差。这些问题限制了模型在自主场景理解、决策推理等方面的应用潜力，也阻碍了因果推理机制的深入研究。

核心创新

本研究的核心创新在于：• 利用零成本的时间逆转，生成自然的反事实视频样本，突破合成场景的限制，实现大规模、多域的真实场景因果评估；• 设计逆惊讶指数（RSI），通过去噪损失量化模型对时间箭头的敏感性，提供定量的时间感知指标；• 引入因果认知指数（CCI），结合视觉-语言模型（VLM）自动划分因果与非因果子集，有效区分模型对因果关系的真正理解与统计偏差；• 构建多域真实视频数据集，涵盖日常生活、物理场景、动物行为等，提升评估的广泛适用性。这些创新使得模型的因果推理能力得到了更全面、科学的检验，为未来模型的训练和优化提供了新的思路。

方法详解

�� 数据采集：从现有真实视频库（如Moment in Time、Physics IQ、Kinetics）中抽取多域场景，确保场景多样性。• 逆向视频生成：对每个视频进行时间逆转，生成反事实样本，零成本实现。• 计算去噪损失：将正向和逆向视频输入预训练的扩散模型（如DiT、Stable Diffusion）中，计算每个样本的去噪损失，作为模型对时间箭头的感知指标。• RSI指标：统计模型在正向与逆向视频中，逆向视频的去噪损失高于正向的比例，反映模型对时间方向的敏感性。• 数据集划分：利用视觉-语言模型（如CLIP）自动检测视频中的因果关系，划分为因果子集（Dc）和非因果子集（Dnc）。• CCI指标：在两个子集上分别计算RSI，差值即为因果认知指数，衡量模型对因果关系的理解深度。• 评估体系：结合两个指标，进行模型排序和性能分析，验证模型的因果推理能力。• 实验验证：对13个主流扩散模型进行系统测试，分析参数规模、架构变化对因果认知的影响。

实验设计

�� 数据集：采用多域真实视频数据，包括日常生活、物理场景、动物行为等，确保场景多样性。• 模型：评估13个主流视频扩散模型（如Wan2.2-A14B、CogVideoX1.5-5B、AnimateDiff-SDXL等），涵盖不同规模和架构。• 指标：使用Level 1 RSI衡量时间箭头感知，Level 2 CCI衡量因果认知能力。• 过程：对每个模型在每个子集上进行多次随机采样，计算平均去噪损失，得出指标值。• 评估标准：模型在不同场景下的表现差异，分析参数规模、架构变化对因果理解的影响。• 人类基准：由人类评审对1200个视频进行因果判断，作为最高水平的参考。• 统计分析：采用Bootstrap方法计算指标置信区间，验证模型性能的统计显著性。

结果分析

�� 多数模型在RSI指标上超过50%的随机猜测线，但整体仍远低于人类（人类最高RSI为87.3%），显示模型对时间箭头的敏感性不足。• 在CCI指标上，少数模型表现出一定的因果认知（如Wan2.2-A14B，CCI值为0.45），但大部分模型仍未达到人类水平（CCI最高为0.78）。• 参数规模和架构（如DiT的引入）对因果理解有明显提升，规模越大，表现越优。• 通过多域测试，模型在日常场景表现较好，但在复杂因果关系中仍存在明显不足。• 结合两个指标的综合排名显示，模型整体因果认知能力仍有较大提升空间，特别是在深层次的因果关系理解方面。

应用场景

�� 立即应用：该评估体系可用于训练更具因果理解能力的生成模型，提升自动驾驶、机器人导航、视频内容审核等领域的场景理解能力。• 长远愿景：未来，结合因果推理机制，推动自主智能体在复杂环境中自主学习因果关系，实现更高水平的场景理解和决策能力，助力智能系统的可信度和自主性提升。

局限与展望

�� 在某些场景（如牛顿摆）中，前后序列几乎无差异，RSI指标难以区分模型对时间箭头的敏感性，限制了评估的普适性。• 去噪损失的计算依赖模型的权重信息，难以对闭源模型进行外部评估，限制了方法的普适性和可扩展性。• 当前模型在复杂因果关系和长序列中的表现仍有限，未来需引入更丰富的因果推理机制和多模态信息融合。

通俗解读非专业人士也能看懂

想象你在一个工厂里工作，工厂每天都在生产各种商品。有一天，你发现某个机器突然开始生产出不同的商品，你会想知道为什么会这样。其实，这就像视频中的事件一样：某个动作（比如推倒积木）会引发后续的变化。现在，假设你能用一台特别的相机，观察到每个事件发生的顺序和原因。当你用这台相机拍摄一段视频时，你可以把它倒转，看看是否还能理解事件的因果关系。科学家们用一种叫做VoE的方法，就是看你是否会对倒转的视频感到惊讶，来判断你是否理解了事件的因果关系。本文提出的方法，就是让AI模型也用类似的方式，观察视频的时间方向，判断它是否真正理解事件之间的因果关系。通过让模型分析真实世界中的视频，研究发现，虽然一些模型能感知时间的流向，但真正理解因果关系还差得远。这就像工厂里的工人，知道某个机器故障的原因，但大部分AI还只是模仿表面现象，没有真正理解背后的因果逻辑。这项研究为未来让AI像人一样理解世界提供了新工具，也提醒我们，单纯的模仿还不足以实现真正的智能。

简单解释像给14岁少年讲一样

你知道吗？在学校里，我们学会了很多事情，比如为什么打篮球会得分，或者为什么天会变晴。这些都是因果关系，也就是说，一个事情会导致另一个事情发生。现在，科学家们想让电脑也能理解这些因果关系，但一直很难。就像你玩游戏时，知道按哪个按钮可以跳跃或攻击，电脑也需要学会这些规则。研究人员发明了一种特别的方法，让电脑看视频时，反着播放它，看看电脑是否会感到奇怪或者困惑。就像你看一部电影倒着播放，可能会觉得怪怪的，因为你知道故事的因果关系。这个方法叫VoE，就是看你是否会对倒放的视频感到惊讶，来判断你是否理解了事件的因果关系。科学家用这个方法测试了很多AI模型，发现它们虽然能感觉到时间在流动，但还不能真正理解事件之间的因果关系。就像你知道，推倒积木后会倒下，但还不知道为什么会倒。未来，这项研究可以帮助电脑更聪明，学会像人一样理解世界的因果关系，让它们在自动驾驶、机器人和智能助手等方面变得更厉害！

原文摘要

As video diffusion models (VDMs) advance toward world models, a key question arises: do they truly understand causality, or merely overfit to statistical temporal patterns? Existing benchmarks mostly rely on synthetic data, limiting real-world generalization due to the sim-to-real gap. We present YoCausal, a two-level benchmark inspired by the Violation of Expectation (VoE) paradigm from cognitive science. By temporally reversing real-world videos at zero cost as natural counterfactual samples, YoCausal establishes an arbitrarily extensible evaluation protocol. Level 1 introduces the Reverse Surprise Index (RSI), quantifying arrow-of-time perception via denoising loss. Level 2 introduces the Causality Cognition Index (CCI), which leverages a VLM to stratify datasets into causal and non-causal subsets, disentangling genuine causal reasoning from temporal bias. Evaluation of 13 state-of-the-art VDMs reveals that perceiving the arrow of time does not imply understanding causality, and a significant gap persists relative to human-level causal cognition.

cs.CV

参考文献 (20)

Wan: Open and Advanced Large-Scale Video Generative Models

Ang Wang, Baole Ai, Bin Wen 等

2025 1729 引用 ⭐ 高影响力查看解读 →

CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer

Zhuoyi Yang, Jiayan Teng, Wendi Zheng 等

2024 1903 引用 ⭐ 高影响力查看解读 →

CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers

Wenyi Hong, Ming Ding, Wendi Zheng 等

2022 1072 引用 ⭐ 高影响力查看解读 →

Scaling Laws For Diffusion Transformers

Zheng Liang, Hao He, Ceyuan Yang 等

2024 33 引用 ⭐ 高影响力查看解读 →

Towards Precise Scaling Laws for Video Diffusion Transformers

Yuanyang Yin, Yaqi Zhao, Mingwu Zheng 等

2024 16 引用 ⭐ 高影响力查看解读 →

AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning

Yuwei Guo, Ceyuan Yang, Anyi Rao 等

2023 1540 引用 ⭐ 高影响力查看解读 →

Scaling Laws for Neural Language Models

J. Kaplan, Sam McCandlish, T. Henighan 等

2020 8063 引用 ⭐ 高影响力查看解读 →

LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference

Jianhao Yuan, Fabio Pizzati, Francesco Pinto 等

2025 7 引用 ⭐ 高影响力查看解读 →

Do generative video models understand physical principles?

Saman Motamed, Laura Culp, Kevin Swersky 等

2025 97 引用 ⭐ 高影响力查看解读 →

Ready to detect a reversal of time's arrow: a psychophysical study using short video clips in daily scenes

Nao Hanyu, Kei Watanabe, S. Kitazawa

2023 7 引用

Physion: Evaluating Physical Prediction from Vision in Humans and Machines

Daniel M. Bear, E. Wang, Damian Mrowca 等

2021 142 引用查看解读 →

Morpheus: Benchmarking Physical Reasoning of Video Generative Models with Real Physical Experiments

Chenyu Zhang, D. Cherniavskii, Andrii Zadaianchuk 等

2025 32 引用查看解读 →

Video Language Planning

Yilun Du, Mengjiao Yang, Peter R. Florence 等

2023 166 引用查看解读 →

Mastering Atari with Discrete World Models

Danijar Hafner, T. Lillicrap, Mohammad Norouzi 等

2020 1216 引用查看解读 →

Classifier-Free Diffusion Guidance

Jonathan Ho

2022 6347 引用查看解读 →

On the Content Bias in Fréchet Video Distance

Songwei Ge, Aniruddha Mahapatra, Gaurav Parmar 等

2024 45 引用查看解读 →

Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models

Yixin Liu, Kai Zhang, Yuan Li 等

2024 624 引用查看解读 →

Learning to Model the World with Language

Jessy Lin, Yuqing Du, Olivia Watkins 等

2023 82 引用查看解读 →

Impossible Videos

Zechen Bai, Hai Ci, Mike Zheng Shou

2025 13 引用查看解读 →

TempCompass: Do Video LLMs Really Understand Videos?

Yuanxin Liu, Shicheng Li, Yi Liu 等

2024 307 引用查看解读 →

YoCausal: How Far is Video Generation from World Model? A Causality Perspective

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

原文摘要

参考文献 (20)

相关论文

JanusMesh: Fast and Zero-Shot 3D Visual Illusion Generation via Cross-Space Denoising

UNIEGO: Proxies as Mediators for Unified Egocentric Video Representation Learning

SSD: Spatially Speculative Decoding Accelerates Autoregressive Image Generation

CalTennis: Large Multi-View Tennis Video Dataset and Benchmark of Monocular-to-3D Pose Estimation

Unified Multimodal Autoregressive Modeling with Shared Context-Visual Tokenizer is Key to Unification

EventDrive: Event Cameras for Vision-Language Driving Intelligence

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样