Physics in 2-Steps: Locking Motion Priors Before Visual Refinement Erases Them

TL;DR

提出PhaseLock，无需训练，通过两步推理提取运动先验，提升视频物理一致性平均6.2分。

cs.CV 🔴 高级 2026-06-05 64 次浏览

Woojung Han Seil Kang Youngjun Jun Min-Hung Chen Fu-En Yang Seong Jae Hwang

视频生成扩散模型物理一致性频谱分析运动先验

核心发现

方法论

本文通过频谱分析揭示扩散模型在多步去噪过程中相位信息逐渐丧失，导致运动结构的退化。研究发现，少步推理（如2步）能更好地保留运动先验，而多步推理（如50步）则会因相位侵蚀而削弱结构信息。基于此，提出无需训练的PhaseLock框架，利用少步推理中提取的运动先验，通过Latent Delta Guidance在高保真生成中保持结构一致性。具体方法包括：• 频域分解：将视频潜在表示分解为幅值和相位，分析其在不同推理步中的变化；• 运动先验提取：在少步推理中计算潜在差分，作为运动结构的代表；• 结构引导：在多步生成中引入潜在差分，调整潜在表示以保持运动一致性。实验中，采用CogVideoX、Wan 2.1等模型，验证PhaseLock在物理一致性上的显著提升（平均+6.2分），且计算开销极低（1.06×时间、1.02×内存），远优于引入外部物理引导的方案。

关键结果

在多种视频生成模型上，PhaseLock平均提升物理一致性评分6.2点（从30.0提升至36.0），显著优于基线模型。以CogVideoX为例，未引导时物理得分为30.8，加入PhaseLock后提升至36.0，提升幅度达5.2点。Wan 2.1模型从20.9提升到28.7，增幅达7.8点。频谱分析显示，PhaseLock有效缓解相位侵蚀，保持了18%的相位信息，显著改善运动结构的连续性。实验证明，该方法在保持视觉质量的同时，增强了模型的物理合理性，减少了 hallucination和结构扭曲。
通过频域分析和控制实验，验证了相位退化是运动失真和物理不一致的主要原因。对比不同推理步数的潜在频谱，发现少步推理（如2步）能更好地保留相位信息，且引入Latent Delta Guidance后，结构相似性提升，误差降低8.5倍。实验还显示，随机扰动相位比幅值更易引起运动偏差，强调相位在运动保持中的关键作用。该技术在不同模型和数据集上均表现出优越的泛化能力。
此外，本文提出的PhaseLock框架无需额外训练，直接在推理阶段操作，极大降低了计算成本。通过引入潜在差分作为运动先验，结合线性调度策略，有效平衡了全局结构和细节纹理的生成。该方法不仅提升了物理一致性，还保持了视觉的高保真度，减少了对昂贵外部引导的依赖，为未来视频生成中的物理约束提供了新思路。
总之，本文通过频谱分析揭示了扩散模型在多步去噪中的相位退化机制，提出了基于少步推理的运动先验提取和结构引导方案。实验验证了其在多种模型上的有效性，为实现具有物理合理性的视频生成提供了新的技术路径。未来工作可在此基础上结合学习机制，进一步优化运动先验的提取与引导策略，推动生成模型在物理一致性方面的突破。

研究意义

本研究突破了当前视频扩散模型在物理一致性方面的瓶颈。通过揭示相位侵蚀机制，提供了无需训练的解决方案，有效缓解了运动结构退化问题。这不仅提升了生成内容的可信度，也为自动驾驶、虚拟现实等对物理真实性要求高的应用场景提供了技术支撑。该方法的低成本和高效性，使其易于集成到现有系统中，推动了生成模型在实际场景中的落地应用。长远来看，本文为未来实现具有物理规律遵循的自动化视频生成奠定了基础，有望引领行业迈向更高的真实性和可靠性。

技术贡献

技术上，本文提出了频谱分析视角，系统揭示了多步去噪过程中相位信息的退化机制，首次将潜在差分作为运动先验引入高保真生成流程。提出的PhaseLock框架采用无训练的潜在差分引导策略，有效缓解了结构退化问题，显著提升了物理一致性。该方法结合线性调度策略，平衡了全局结构和细节纹理的生成，兼容多种扩散模型。与现有依赖外部物理引擎或复杂训练的方案相比，具有低成本、高效率的优势，为生成模型的物理约束提供了新途径。

新颖性

本研究的创新点在于首次系统性分析了多步去噪中的相位退化机制，提出了基于少步推理提取运动先验的无训练引导框架。相较于传统依赖外部物理引擎或大规模训练的方案，PhaseLock通过频域分析和潜在差分实现结构保持，极大简化了物理一致性提升的复杂度。这一方法突破了现有模型在物理合理性方面的瓶颈，为未来无训练、低成本的物理约束视频生成提供了新思路。

局限性

该方法依赖于潜在空间的频谱特性，可能在极端复杂或非线性运动场景中表现不足，因其假设运动主要由低频结构支撑。
在极高速或剧烈运动场景中，潜在差分的线性调度可能无法充分捕捉非线性动态，导致物理一致性下降。
虽然低成本，但在某些高分辨率或长序列生成中，仍需优化潜在差分的计算效率和引导策略，以应对更复杂的应用需求。

未来方向

未来可结合学习机制，动态调整潜在差分的引导强度，适应不同运动复杂度。还可以探索多尺度频谱分析，增强对非线性运动的捕捉能力。此外，将该方法扩展到多模态生成（如视频与音频同步）以及实时应用，将极大推动虚拟现实、动画制作等行业的发展。进一步研究也应关注模型的泛化能力，确保在极端场景下的稳定性和可靠性。

AI 总览摘要

随着深度学习技术的不断演进，视频生成模型尤其是基于扩散机制的模型在视觉质量方面取得了巨大突破。然而，物理一致性仍然是制约其实际应用的关键难题。传统方法多依赖于引入外部物理引擎或大规模训练，既增加了计算成本，又难以保证模型在复杂动态场景中的表现。本文通过深入分析扩散模型在多步去噪中的频谱变化，揭示了运动结构退化的根本原因——相位侵蚀。研究发现，少步推理（如2步）能更好地保留运动先验，而多步推理（如50步）则会因相位信息的逐步丧失而导致运动扭曲甚至物理不合理。基于此，作者提出了PhaseLock框架，利用频域分析和潜在差分，在无需训练的情况下，有效地在高保真生成过程中保持运动结构的连续性。该方法通过在潜在空间引入结构引导，显著提升了模型的物理一致性（平均提升6.2分），同时保持了极低的计算开销（1.06×时间、1.02×内存），远优于依赖外部物理引导的方案。实验结果在多个主流模型和数据集上均验证了其有效性，显示出广泛的适用性和良好的泛化能力。这一突破不仅为视频生成中的物理约束提供了新思路，也为未来实现具有物理规律遵循的自动化内容生成奠定了基础。未来，结合学习机制和多尺度频谱分析，有望进一步提升模型在复杂动态场景中的表现，推动虚拟现实、动画制作等行业的变革。

深度解读

原文摘要

Image-to-Video diffusion models leverage input images to generate visually stunning content, yet frequently produce motion that violates physical laws. We reveal a surprising finding: a 2-step generation often exhibits better physical consistency than a 50-step output from the same model. Through spectral analysis, we trace this to phase erosion during denoising; the phase degrades significantly (dropping by $\approx 18\%$ from step 2 to step 50), whereas the magnitude remains relatively stable. Building on this insight, we propose PhaseLock, a training-free framework that preserves the valid motion priors from few-step inference throughout the denoising trajectory. Rather than relying on full-step inference for physical consistency, PhaseLock extracts a motion prior from just 2 steps and enforces it onto high-fidelity generation via Latent Delta Guidance. Our approach effectively mitigates phase degradation, improving physical consistency by an average of 6.2 points across diverse models while largely maintaining visual fidelity, with negligible overhead ($1.06\times$ time, $1.02\times$ memory) and reduced reliance on expensive external guidance methods ($\sim5\times$ time).

cs.CV

Physics in 2-Steps: Locking Motion Priors Before Visual Refinement Erases Them

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度解读

原文摘要

相关论文

JanusMesh: Fast and Zero-Shot 3D Visual Illusion Generation via Cross-Space Denoising

UNIEGO: Proxies as Mediators for Unified Egocentric Video Representation Learning

SSD: Spatially Speculative Decoding Accelerates Autoregressive Image Generation

CalTennis: Large Multi-View Tennis Video Dataset and Benchmark of Monocular-to-3D Pose Estimation

Unified Multimodal Autoregressive Modeling with Shared Context-Visual Tokenizer is Key to Unification

EventDrive: Event Cameras for Vision-Language Driving Intelligence