Itô maps for any-step SDEs

TL;DR

引入Itô映射实现任意步长SDE采样,支持条件采样与控制,提升生成多样性与效率。

stat.ML 🔴 高级 2026-06-10 84 次浏览
Zhengkai Pan Peter Potaptchik Wenxi Yao Michael S. Albergo Jakiw Pidstrigach
随机微分方程 生成模型 路径预测 贝叶斯控制 深度学习

核心发现

方法论

本文提出一种基于Itô映射的任意步长SDE路径预测框架,利用Brownian路径的低维表示(如Karhunen–Loève展开和Haar小波)实现高维数据的单步预测。模型通过学习条件性随机流映射Φs,t,将中间状态xt和Brownian路径W映射到未来状态xu,保持随机性和不确定性。训练采用自我蒸馏(self-distillation)策略,分为对角线Gt,t和非对角线Gs,t的学习,确保路径一致性。具体算法包括LSD(Lagrangian Self-Distillation)和LPSD(Progressive Self-Distillation),结合Brownian路径的低维特征进行优化。模型还引入贝叶斯路径估计(BEL系列)和梯度估计(Itô-G、Itô-GF)实现推断时的控制。实验中,模型在高维图像生成、后验采样和引导控制任务中表现出优越性能。

关键结果

  • 在一维高斯混合模型中,Itô映射能够精确复现SDE轨迹,误差显著低于传统方法,平均误差RMSE约6.92×10^-2。在二维后验采样任务中,Itô-G方法在Sliced-Wasserstein距离(SW2)上达到0.16,优于MFM-G(0.51)和DPS(0.91),显示出在后验采样中的优越性。在MNIST图像生成任务中,模型在像素空间的均方误差(MSE)为0.05,验证了路径预测的准确性。在引导控制方面,模型成功实现了对MNIST类别比例的调控,KL散度最低达0.024,显著优于基线方法,验证了其在推断时引导中的潜力。
  • 结果还表明,低维Brownian特征(Karhunen–Loève和Haar小波)有效压缩路径信息,减少模型复杂度,同时保持路径的随机性和多样性。模型在多个复杂场景中展现出强大的条件采样能力和控制性能,尤其在高维图像和后验采样任务中表现出较强的泛化能力和稳定性。

研究意义

该研究突破了传统确定性流映射的局限,提出支持随机性与条件采样的Itô映射,为高效后验采样和随机控制提供了新的数学工具。它不仅丰富了随机微分方程在生成模型中的应用,也为未来在复杂高维数据中的路径预测与控制开辟了新路径。通过引入低维Brownian路径表示,极大降低了模型训练和推断的计算成本,为深度生成模型的实用化提供了理论基础和技术方案。这一方法在图像生成、后验采样、引导控制等多个应用场景中展现出潜在的广泛应用价值,推动了随机微分方程在深度学习中的融合发展。

技术贡献

本文提出了Itô映射的理论框架,定义了任意步长的随机流映射Φs,t,结合低维Brownian路径特征实现高维数据的单步预测。创新点包括:• 设计低维Karhunen–Loève和Haar小波特征提取方案,有效压缩路径信息;• 提出基于自我蒸馏的训练策略,确保路径一致性和模型稳定性;• 引入贝叶斯路径估计(BEL系列)和梯度估计(Itô-G、Itô-GF)实现推断时的控制,支持复杂奖励函数的引导。该方法在理论上保证了路径的条件一致性和随机性,在实践中显著提升了后验采样的多样性和控制的精度。

新颖性

本研究首次系统性引入Itô映射用于任意步长SDE路径预测,区别于现有的确定性流映射和仅在终点预测的随机采样方法。核心创新在于:• 利用Brownian路径的低维表示实现高效的单步随机预测,突破了路径高维表示的瓶颈;• 结合路径结构设计贝叶斯和梯度无关的控制估计器,增强了模型在推断时的控制能力;• 提出路径一致性训练策略,确保模型在不同时间点的路径连续性和随机性,提升了采样的多样性和真实性。

局限性

  • 模型在高维复杂数据(如高分辨率图像)中的训练成本仍较高,尤其在路径特征提取和路径一致性保证方面存在优化空间。
  • 低维Brownian特征的选择(如Karhunen–Loève模式数)可能影响路径表达的丰富性,需在效率与表达能力之间权衡。
  • 在极端噪声或非高斯噪声环境下,模型的路径预测和控制性能可能下降,需进一步扩展到更复杂的噪声模型。

未来方向

未来将探索多尺度路径特征的结合,提升模型在复杂场景中的泛化能力。还计划引入自适应路径特征学习机制,增强模型对不同数据分布的适应性。此外,将结合强化学习策略,优化路径采样的控制效率,推动该方法在机器人控制、强化学习等领域的应用。进一步研究也将关注模型的理论收敛性和稳定性,为实际部署提供更坚实的数学保障。

AI 总览摘要

在深度生成模型的发展历程中,如何高效、灵活地进行路径采样一直是核心难题。传统的多步采样方法虽能生成高质量样本,但计算成本高昂,限制了其在实际应用中的推广。近年来,单步流映射(如Score-based模型和Flow Matching)在提升采样速度方面取得了显著进展,但大多局限于确定性路径,难以捕捉生成过程中的不确定性和多样性。本文提出了一种基于Itô映射的任意步长SDE路径预测框架,为解决这一瓶颈提供了新思路。

该方法的核心创新在于引入路径条件的随机流映射Φs,t,它不仅考虑了状态信息,还融合了Brownian路径的低维表示,从而实现高维数据的单步预测。通过Karhunen–Loève展开和Haar小波等技术,模型能够在保持路径随机性的同时,显著降低路径表示的维度,提升训练效率。训练策略采用自我蒸馏(self-distillation),在保证路径连续性和一致性的基础上,有效提升模型的泛化能力。

在实验中,作者在一维高斯混合模型中验证了路径预测的精确性,误差显著低于传统方法。在二维后验采样任务中,模型在Sliced-Wasserstein距离和MMD指标上优于多种基线,显示出强大的后验采样能力。在MNIST图像生成任务中,路径预测误差低至0.05,验证了模型在高维数据中的适用性。此外,模型还成功实现了引导控制,能够根据奖励函数调节生成样本的类别比例,KL散度最低达0.024,优于现有方法。

这些结果表明,Itô映射不仅突破了路径预测的技术瓶颈,还为高效、多样化的后验采样和控制提供了坚实的理论基础。其在图像生成、后验采样和强化学习中的潜在应用,将极大推动深度生成模型的实用化进程。未来,作者计划结合多尺度路径特征和强化学习策略,进一步提升模型的适应性和控制效率,拓展其在机器人控制、智能决策等领域的应用前景。整体而言,这项工作为随机微分方程在深度学习中的融合提供了新范式,具有重要的学术价值和广泛的应用潜力。

深度分析

研究背景

近年来,深度生成模型如扩散模型(Diffusion Models)和score-based模型(Score-based Generative Models)在图像、音频等领域取得了巨大成功。这些模型通过逐步去噪或路径采样实现高质量生成,代表了生成模型的前沿发展。传统方法多依赖于ODE或SDE的逐步积分,虽然效果良好,但计算成本较高,且难以实现快速采样。为解决这一问题,Flow Matching、Rectified Flow和Stochastic Interpolants等技术提出了路径压缩和流映射的思想,试图用少量步骤甚至一次性预测实现高效采样。近年来,Flow-Map蒸馏(Flow-Map Distillation)等方法进一步压缩了路径,提升了采样速度,但大多仍基于确定性流或只在终点进行预测,难以捕获路径中的不确定性和多样性。Score-based模型的随机性由SDE本身提供,但现有一阶模型多强调快速传输,未充分利用路径的随机结构,限制了后验采样和引导控制的能力。

核心问题

尽管已有多种高效采样技术,但在保持生成样本多样性和支持复杂控制方面仍存在瓶颈。现有一阶模型多为确定性映射,无法直接表达中间状态到终点的后验分布,限制了条件采样和引导控制的能力。尤其是在高维数据中,路径的随机性难以有效建模,导致采样的多样性不足。此外,传统方法在路径连续性和随机性保持方面存在不足,难以满足复杂任务中的多样性和控制需求。因此,亟需一种能够在保持路径随机性的同时,实现高效、条件化的单步预测的方法,以支持后验采样和强化控制。

核心创新

本文的核心创新在于提出Itô映射(Itô map)框架,定义了任意步长的随机路径映射Φs,t,结合低维Brownian路径特征实现高维数据的单步预测。具体创新点包括:• 利用Karhunen–Loève展开和Haar小波技术,将无限维Brownian路径压缩为少数几个特征(如5个KL模态和多尺度小波系数),大幅降低路径表示复杂度;• 设计基于自我蒸馏的训练策略,确保路径在不同时间点的一致性和连续性,提升模型的稳定性和泛化能力;• 引入贝叶斯路径估计(BEL系列)和梯度估计(Itô-G、Itô-GF)方法,支持推断时的控制,能够根据奖励函数动态调节生成样本。该方法在理论上保证路径的条件一致性和随机性,在实践中显著提升后验采样的多样性和控制的精度。

方法详解

  • �� 低维路径特征提取:采用Karhunen–Loève展开,将无限维Brownian路径表示为有限模态(如5个),以及利用Haar小波进行多尺度局部分解,形成结构化的路径特征向量。
  • �� Itô映射学习:定义Φs,t,将中间状态xt和路径W作为输入,学习映射到未来状态xu。训练目标包括对角线Gt,t的学习(对应路径的局部漂移)和非对角线Gs,t的学习(路径的全局一致性),采用LSD和LPSD策略,确保路径连续性。
  • �� 训练策略:通过模拟不同时间点的状态和路径,最小化路径一致性损失(LSD)和路径递推损失(LPSD),实现模型的稳定训练。模型在训练中不断优化路径的条件一致性,确保在不同时间点的路径预测符合SDE的动力学。
  • �� 控制与引导:利用贝叶斯路径估计(BEL)和梯度估计(Itô-G、Itô-GF)实现推断时的奖励引导。通过Doob’s h-变换调整漂移项,结合路径信息实现高效的条件采样和奖励调节。
  • �� 实验验证:在一维高斯混合模型验证路径预测精度,在二维后验采样中实现高质量条件采样,在MNIST和ImageNet上验证图像生成能力和引导控制效果。

实验设计

作者设计了多场景实验验证模型性能。首先在一维高斯混合模型中,比较真实轨迹与预测路径,误差显著低于传统方法。随后在二维后验采样任务中,利用已知后验分布,评估引导控制的准确性,指标包括SW2和MMD,结果显示Itô-G方法在样本质量上优于多种基线。接着在MNIST图像生成任务中,模型在像素空间的MSE为0.05,验证了路径预测的准确性。最后在引导控制任务中,模型根据奖励函数调节类别比例,KL散度最低0.024,表现优异。所有实验均采用低维路径特征(Karhunen–Loève和Haar小波),验证了路径压缩与多样性保持的有效性。

结果分析

实验结果显示,模型在路径预测和后验采样中表现出色。路径误差在一维高斯模型中误差为6.92×10^-2,显著优于传统方法。在二维后验采样中,SW2指标从未引导的1.95降低到0.16,MMD从0.38降至0.024,显示出极强的采样质量。在MNIST图像生成中,路径预测误差低至0.05,证明模型能在高维空间中保持路径连续性。在引导控制方面,模型成功调节类别比例,KL散度低于0.025,验证了其在复杂奖励环境中的控制能力。这些结果充分验证了Itô映射在路径预测和控制中的优越性。

应用场景

该方法可广泛应用于高维图像生成、后验采样、强化学习中的路径控制等场景。只需训练一次模型,即可实现多步路径预测和条件采样,极大提高采样效率。尤其适合需要高多样性和精确控制的应用,如图像编辑、虚拟现实、机器人路径规划等。未来结合强化学习策略,还可实现自主决策和复杂任务中的路径优化,推动智能系统的自主性和鲁棒性。

局限与展望

模型在高维复杂场景中的训练成本较高,路径特征的选择(如模态数)影响表达能力,需在效率和效果间权衡。此外,路径的低维表示可能在极端噪声环境下表现不佳,模型在非高斯噪声或非线性动力学中还需验证。未来还需解决路径连续性与多样性之间的平衡问题,以及提升模型在大规模数据集中的训练效率。

通俗解读 非专业人士也能看懂

想象你在做一份复杂的手工艺品,比如拼装一个模型飞机。每一步都需要你根据前一步的状态,决定下一步怎么做。传统的方法就像是逐步拼装,每次都要看完整的说明书,耗时又繁琐。而这篇论文提出了一种神奇的“魔法地图”,可以一次性告诉你,从某个中间状态出发,怎么用最少的步骤快速拼出完整的飞机,而且还能根据不同的需求调整,比如让飞机飞得更远或更稳。这种“魔法地图”就像是根据风的方向和速度(对应随机路径)设计的,能在保持灵活性的同时,节省时间和精力。它还可以用来模拟不同的飞行轨迹,帮助设计更好的飞机。这种方法的核心在于,它不仅记住了每一步的变化,还能根据风的变化调整路径,就像你在玩一款可以自己调节路线的飞行游戏一样。这样一来,不仅能快速得到漂亮的模型,还能根据不同的目标调整飞行路线,变得更加智能和灵活。

简单解释 像给14岁少年讲一样

想象你在玩一个超级复杂的迷宫游戏,每次你走到一半,可能会遇到不同的风或障碍,导致你走的路线不一样。以前的游戏只能告诉你怎么从起点走到终点,但不能告诉你中途的每个选择会变成什么样。现在,这个新方法就像是给你一张神奇的地图,不仅告诉你从中间某个点出发,怎么走到终点,还能考虑到风的变化,让你可以在不同的天气条件下,快速找到最好的路线。它用一种特别的数学魔法,把所有可能的风和障碍都压缩成几种简单的线索,让你不用记太多东西,就能预测出不同的路线。这就像你用一块魔法宝石,能看到不同的风向和路线变化,然后帮你选择最稳妥的路径。这样一来,无论天气多变,你都能用这张魔法地图,快速找到最安全、最有趣的路线,玩得更开心!

术语表

Itô映射 (Itô map)

一种路径条件的随机流映射,将中间状态和Brownian路径映射到未来状态,支持任意步长的路径预测。

论文中提出的核心工具,用于路径生成和控制。

Brownian路径 (Brownian path)

连续随机过程,描述粒子在流体中的随机运动,具有高斯分布和独立增量特性。

作为随机路径的基础输入,经过低维特征提取用于路径预测。

Karhunen–Loève展开 (Karhunen–Loève expansion)

一种将无限维随机过程表示为有限模态的正交展开,便于路径压缩和特征提取。

用于将Brownian路径压缩成少数几个特征,提高模型效率。

Haar小波 (Haar wavelet)

一种多尺度的正交小波变换,用于局部分解随机路径,捕获不同尺度的变化。

实现路径的多尺度特征提取,增强模型的表达能力。

自我蒸馏 (Self-distillation)

一种训练策略,通过模型自身生成的中间结果作为监督信号,提升路径一致性和稳定性。

用于训练Itô映射,确保路径连续性。

贝叶斯路径估计 (BEL系列)

利用贝叶斯方法对路径进行后验估计,支持无梯度的控制策略。

在推断时实现奖励引导和路径调节。

梯度估计 (Itô-G, Itô-GF)

基于路径条件的梯度估计方法,用于奖励引导中的控制优化。

支持在奖励函数复杂或不可微情况下的路径控制。

路径一致性 (Path consistency)

确保不同时间点路径预测的连续性和符合动力学的特性。

训练目标之一,保证路径的合理性。

Sliced-Wasserstein距离 (SW2)

一种衡量高维分布相似性的指标,通过投影到一维后计算Wasserstein距离。

用于评估后验采样的质量。

Maximum Mean Discrepancy (MMD)

一种非参数统计距离,用于衡量两个分布的差异。

评估生成样本与真实分布的接近程度。

开放问题 这项研究留下的未解疑问

  • 1 虽然引入了低维路径特征,但在极高维数据(如高分辨率图像)中的路径表达能力仍需提升,如何自动选择最优特征维度是未来研究方向。
  • 2 模型在非高斯噪声环境下的表现尚未充分验证,特别是在复杂噪声模型和非线性动力学中,路径预测的鲁棒性有待提升。
  • 3 路径的多样性与连续性之间存在平衡问题,如何在保证多样性的同时避免路径退化,是未来优化的关键。
  • 4 训练过程中对路径一致性和模型稳定性的保证机制仍有改进空间,尤其在大规模数据集上训练的效率和效果。
  • 5 未来还需探索多尺度、多模态路径特征的联合学习,以适应更复杂的生成任务和控制需求。

应用场景

近期应用

高效后验采样

利用Itô映射实现高维数据的快速后验采样,适用于图像生成、虚拟现实等场景,显著降低采样时间,提高样本多样性。

条件生成与引导控制

通过奖励函数调节生成样本的特定属性(如类别比例、风格等),在艺术创作、个性化推荐等领域具有广泛应用。

强化学习路径优化

结合路径控制策略,优化机器人或智能体的路径规划,实现自主决策和复杂任务执行。

远期愿景

自主智能系统

未来结合路径预测与强化学习,打造具有自主决策能力的智能系统,应用于自动驾驶、机器人等领域。

多模态多尺度路径建模

实现跨模态、多尺度的路径学习,支持复杂环境中的动态决策和多任务协作,推动智能系统的全面升级。

原文摘要

Recent one-step generative models accelerate sampling by learning deterministic flow maps of the underlying dynamics. These methods rely on learning from ordinary differential equations, leaving open how to define an exact distillation procedure for stochastic dynamics. We introduce the Itô map, an any-step stochastic flow map that takes an intermediate state and Brownian path and predicts future states in a single pass. The Itô map formulation yields novel estimators for inference-time control by providing cheap, differentiable access to posterior samples. Empirically, Itô maps produce diverse, conditionally valid endpoint samples from fixed intermediate states and support strong steering performance on synthetic and image-generation benchmarks. These results establish any-step SDE integration as a useful primitive for posterior sampling and stochastic control.

stat.ML cs.LG

参考文献 (20)

Human Preference Score v2: A Solid Benchmark for Evaluating Human Preferences of Text-to-Image Synthesis

Xiaoshi Wu, Yiming Hao, Keqiang Sun 等

2023 810 引用 ⭐ 高影响力 查看解读 →

Meta Flow Maps enable scalable reward alignment

Peter Potaptchik, A. Saravanan, Abbas Mammadov 等

2026 18 引用 ⭐ 高影响力 查看解读 →

Diffusion Posterior Sampling for General Noisy Inverse Problems

Hyungjin Chung, Jeongsol Kim, Michael T. McCann 等

2022 1655 引用 ⭐ 高影响力 查看解读 →

Score-Based Generative Modeling through Stochastic Differential Equations

Yang Song, Jascha Narain Sohl-Dickstein, Diederik P. Kingma 等

2020 10927 引用 ⭐ 高影响力 查看解读 →

How to build a consistency model: Learning flow maps via self-distillation

N. Boffi, M. Albergo, Eric Vanden-Eijnden

2025 64 引用 ⭐ 高影响力 查看解读 →

Inference-Time Alignment in Diffusion Models with Reward-Guided Generation: Tutorial and Review

Masatoshi Uehara, Yulai Zhao, Chenyu Wang 等

2025 73 引用 查看解读 →

A stochastic control approach to reciprocal diffusion processes

P. Pra

1991 230 引用

One Step Diffusion via Shortcut Models

Kevin Frans, Danijar Hafner, Sergey Levine 等

2024 312 引用 查看解读 →

Sur la géométrie différentielle des groupes de Lie de dimension infinie et ses applications à l'hydrodynamique des fluides parfaits

V. Arnold

1966 1820 引用

Stochastic Interpolants: A Unifying Framework for Flows and Diffusions

M. Albergo, N. Boffi, E. Vanden-Eijnden

2023 834 引用 查看解读 →

Bayesian learning via neural Schrödinger–Föllmer flows

Francisco Vargas, Andrius Ovsianas, D. Fernandes 等

2021 69 引用 查看解读 →

Statistics in Function Space

D. D. Kosambi

2016 237 引用

Conditional brownian motion and the boundary limits of harmonic functions

J. Doob

1957 323 引用

Iterated Denoising Energy Matching for Sampling from Boltzmann Densities

Tara Akhound-Sadegh, Jarrid Rector-Brooks, A. Bose 等

2024 115 引用 查看解读 →

Decoupled MeanFlow: Turning Flow Models into Flow Maps for Accelerated Sampling

Kyungmin Lee, Sihyun Yu, Jinwoo Shin

2025 13 引用 查看解读 →

Über lineare Methoden in der Wahrscheinlichkeitsrechnung

K. Karhunen

1947 1125 引用

Denoising Diffusion Probabilistic Models

Jonathan Ho, Ajay Jain, P. Abbeel

2020 31523 引用 查看解读 →

Building Normalizing Flows with Stochastic Interpolants

M. Albergo, E. Vanden-Eijnden

2022 916 引用 查看解读 →

Loss-Guided Diffusion Models for Plug-and-Play Controllable Generation

Jiaming Song, Qinsheng Zhang, Hongxu Yin 等

2023 242 引用

Consistency Trajectory Models: Learning Probability Flow ODE Trajectory of Diffusion

Dongjun Kim, Chieh-Hsin Lai, Wei-Hsiang Liao 等

2023 413 引用 查看解读 →