Explanation of Dynamic Physical Field Predictions using WassersteinGrad: Application to Autoregressive Weather Forecasting

TL;DR

WassersteinGrad通过计算熵Wasserstein重心来解释动态物理场预测,提升天气预报的自回归模型解释性。

stat.ML 🔴 高级 2026-04-24 20 次浏览
Younes Essafouri Laure Raynaud Luciano Drozda Laurent Risser
WassersteinGrad 天气预报 自回归模型 解释性AI 动态物理场

核心发现

方法论

本文提出了一种名为WassersteinGrad的新方法,用于解释动态物理场的预测。该方法通过计算熵Wasserstein重心,解决了传统梯度平滑方法在动态物理场中出现的几何位移问题。具体来说,WassersteinGrad通过将扰动的归因图映射到空间概率测度中,利用熵正则化的Wasserstein重心提取几何共识,从而在高维输入中实现更具解释性的预测。

关键结果

  • 在区域天气数据集上,WassersteinGrad在解释性指标上优于基于梯度的基线方法。在单步预测和自回归预测设置中,WassersteinGrad展示了更高的解释性,尤其是在空间一致性和物理定位方面。
  • 通过实验验证,WassersteinGrad在保持预测模型性能的同时,显著减少了归因图的几何位移现象。具体数据表明,在噪声水平σ<0.4时,模型性能下降不到1%,而归因质心平均偏移达到10-15公里。
  • 在自回归预测中,WassersteinGrad通过几何共识吸收了几何失真累积,表现出优于其他基线方法的鲁棒性。

研究意义

WassersteinGrad方法的提出在学术界和工业界具有重要意义。它不仅解决了动态物理场预测中长期存在的解释性难题,还为高风险环境中的AI应用提供了更可靠的解释工具。通过提高模型预测的透明度,WassersteinGrad有助于增强用户对AI系统的信任,尤其是在天气预报等高风险领域。此外,该方法的几何共识机制为其他领域的解释性AI研究提供了新的思路。

技术贡献

WassersteinGrad在技术上与现有的状态-of-the-art方法有显著不同。首先,它引入了熵Wasserstein重心来解决几何位移问题,这在解释性AI中是一个新的理论保证。其次,该方法通过几何共识机制,提供了新的工程可能性,使得在高维动态输入中实现更精确的归因成为可能。最后,WassersteinGrad在解释性、鲁棒性和稀疏性指标上均表现出色,展示了其在实际应用中的潜力。

新颖性

WassersteinGrad是第一个将熵Wasserstein重心应用于动态物理场预测解释的方法。与现有的SmoothGrad等方法相比,它不仅解决了几何位移问题,还在解释性和鲁棒性上取得了显著提升。这一创新为解释性AI在动态物理场中的应用开辟了新的路径。

局限性

  • WassersteinGrad在高维网格上的计算复杂度较高,尽管通过熵正则化和Sinkhorn迭代进行了优化,但仍需进一步提升计算效率。
  • 该方法在不同的预测模型和空间域上的通用性尚需验证,特别是在其他具有复杂动态特性的物理场中。
  • 当前的噪声注入策略仍采用白噪声,缺乏物理信息,未来需要探索更具物理意义的扰动策略。

未来方向

未来的研究方向包括:1) 探索更高效的计算方法以降低WassersteinGrad在高维网格上的计算成本;2) 验证该方法在其他动态物理场中的通用性和有效性;3) 开发更具物理意义的噪声注入策略,以提高解释的物理合理性和模型的鲁棒性。

AI 总览摘要

随着人工智能在高风险环境中的应用需求不断增长,解释神经网络预测背后的推理过程已从理论兴趣转变为严格的操作要求。在天气预报等动态物理场的自回归神经预测中,解释性尤为重要。传统的基于梯度的特征归因方法由于其在高维输入中的可扩展性而被广泛使用。然而,这些方法在动态物理场中存在一个基本的失败模式:随机输入扰动导致归因图的几何位移,而不是静态幅度噪声。这种位移导致点对点平均模糊了这些空间错位的特征。

为了解决这一问题,本文引入了WassersteinGrad方法,通过计算扰动归因图的熵Wasserstein重心来提取几何共识。实验结果表明,在区域天气数据和经过气象学家验证的神经模型上,WassersteinGrad在解释性指标上优于基于梯度的基线方法,无论是在单步还是自回归预测设置中。

WassersteinGrad的核心技术原理是利用熵Wasserstein重心来解决几何位移问题。通过将扰动的归因图映射到空间概率测度中,利用熵正则化的Wasserstein重心提取几何共识,从而在高维输入中实现更具解释性的预测。这一创新不仅提高了模型预测的透明度,还为高风险环境中的AI应用提供了更可靠的解释工具。

实验结果显示,WassersteinGrad在保持预测模型性能的同时,显著减少了归因图的几何位移现象。在噪声水平σ<0.4时,模型性能下降不到1%,而归因质心平均偏移达到10-15公里。此外,在自回归预测中,WassersteinGrad通过几何共识吸收了几何失真累积,表现出优于其他基线方法的鲁棒性。

WassersteinGrad的提出在学术界和工业界具有重要意义。它不仅解决了动态物理场预测中长期存在的解释性难题,还为高风险环境中的AI应用提供了更可靠的解释工具。通过提高模型预测的透明度,WassersteinGrad有助于增强用户对AI系统的信任,尤其是在天气预报等高风险领域。此外,该方法的几何共识机制为其他领域的解释性AI研究提供了新的思路。

然而,WassersteinGrad在高维网格上的计算复杂度较高,尽管通过熵正则化和Sinkhorn迭代进行了优化,但仍需进一步提升计算效率。此外,该方法在不同的预测模型和空间域上的通用性尚需验证,特别是在其他具有复杂动态特性的物理场中。未来的研究方向包括探索更高效的计算方法以降低计算成本,验证方法的通用性,以及开发更具物理意义的噪声注入策略。

深度分析

研究背景

随着深度学习模型在各类任务中的复杂性和性能不断提高,其固有的不透明性成为在高风险应用中信任的关键障碍。这种不透明性在天气预报等高风险应用中尤为突出,因为错误的预测可能导致严重的物理或社会后果。近年来,深度学习在天气预报中逐渐与传统的物理求解器竞争,成为一种新的预测工具。然而,随着这些系统逐渐被部署在高风险决策管道中,如何解释其预测结果成为一个亟待解决的问题。现有的解释性AI策略中,基于梯度的特征归因方法已成为标准方法,尤其是在输入样本位于规则和高维空间域时。然而,这些方法在动态物理场中存在一个基本的局限性,即它们往往由于深度网络的高度非线性特性而在视觉上显得噪声很大且局部破碎。为了减少这种噪声,SmoothGrad等广泛采用的平滑技术首先对输入观测进行空间独立的高斯噪声采样,然后对使用扰动输入获得的预测进行梯度平均。尽管这些策略在图像数据上特别有效,但我们认为,当用于预测动态物理现象的状态时,依赖于点对点平均会导致解释定位不佳。

核心问题

在动态物理场的预测中,传统的基于梯度的特征归因方法存在一个基本的失败模式:随机输入扰动导致归因图的几何位移,而不是静态幅度噪声。这种位移导致点对点平均模糊了这些空间错位的特征,进而影响了预测的解释性。具体来说,在气象现象中,这种几何位移表现为归因质量从其真实空间位置迁移到附近的物理不正确位置。这种现象在气象验证中被正式识别为相位误差,即预测正确的事物但位置错误。此外,当预测模型以自回归方式使用时,这种几何位移现象会被强化。每个自回归步骤可能引入一个独立的几何失真,当从最终的引导时间反向传播梯度以解释噪声输入时,这些空间错位会累积。因此,开发考虑现代自回归预测模型固有特性的新的解释性AI解决方案显得尤为重要。

核心创新

本文的核心创新在于引入了一种基于传输的聚合框架WassersteinGrad,以解决动态物理场预测中的几何位移问题。具体来说,WassersteinGrad通过计算扰动归因图的熵Wasserstein重心来提取几何共识。这一创新不仅提高了模型预测的透明度,还为高风险环境中的AI应用提供了更可靠的解释工具。与现有的SmoothGrad等方法相比,WassersteinGrad不仅解决了几何位移问题,还在解释性和鲁棒性上取得了显著提升。通过将扰动的归因图映射到空间概率测度中,利用熵正则化的Wasserstein重心提取几何共识,从而在高维输入中实现更具解释性的预测。这一创新为解释性AI在动态物理场中的应用开辟了新的路径。

方法详解

  • �� 输入通道选择:选择一个输入通道cin,在其上表示空间归因(例如,选择一个空间切片)。

  • �� 输出通道选择:选择一个预测场的输出通道cout进行解释(例如,选择表面降水量)。

  • �� 兴趣区域(ROI):定义一个兴趣区域B,并在该区域上计算目标标量。

  • �� 归因计算:计算目标标量相对于所选输入通道的梯度。

  • �� 扰动输入构建:对输入进行高斯噪声扰动,构建通道特定的扰动输入。

  • �� 归因图计算:计算目标相对于扰动输入切片的梯度。

  • �� 归因图映射:将每个归因图映射为离散空间概率分布。

  • �� Wasserstein重心计算:通过熵正则化的Wasserstein重心计算提取几何共识。

实验设计

实验设计包括使用AROME高分辨率气象基准数据集,该数据集由Météo-France的AROME有限区域模型导出,提供西欧的公里级分析。我们使用法国的一个子域作为测试集,时间跨度为2023年1月至12月。预测骨干是一个预训练的混合卷积-注意力U-Net,使用Py4cast进行训练,预测1小时引导时间的气象状态。实验中,我们选择总表面降水量作为预测目标,并使用250 hPa的纬向风作为输入通道。所有随机方法使用N个扰动样本,噪声方差σ.2x t)x t)),WGBary和WGBary×Grad使用Sinkhornλ=0.001,选择通过信实性-稀疏性-鲁棒性权衡。

结果分析

实验结果表明,WassersteinGrad在解释性指标上优于基于梯度的基线方法。在单步预测和自回归预测设置中,WassersteinGrad展示了更高的解释性,尤其是在空间一致性和物理定位方面。具体数据表明,在噪声水平σ<0.4时,模型性能下降不到1%,而归因质心平均偏移达到10-15公里。此外,在自回归预测中,WassersteinGrad通过几何共识吸收了几何失真累积,表现出优于其他基线方法的鲁棒性。

应用场景

WassersteinGrad在天气预报等高风险环境中具有直接应用潜力。通过提高模型预测的透明度,WassersteinGrad有助于增强用户对AI系统的信任,尤其是在天气预报等高风险领域。此外,该方法的几何共识机制为其他领域的解释性AI研究提供了新的思路。未来,该方法还可以应用于其他动态物理场的预测,如海洋学、大气科学等,帮助科学家更好地理解和解释复杂的自然现象。

局限与展望

WassersteinGrad在高维网格上的计算复杂度较高,尽管通过熵正则化和Sinkhorn迭代进行了优化,但仍需进一步提升计算效率。此外,该方法在不同的预测模型和空间域上的通用性尚需验证,特别是在其他具有复杂动态特性的物理场中。当前的噪声注入策略仍采用白噪声,缺乏物理信息,未来需要探索更具物理意义的扰动策略。

通俗解读 非专业人士也能看懂

想象你在厨房里做饭。你有一堆食材(输入数据),你想知道如何把它们变成美味的菜肴(预测结果)。传统的方法就像是用一个固定的食谱来做菜,不管食材的新鲜度或季节变化。而WassersteinGrad就像是一个聪明的厨师,他会根据食材的变化调整烹饪方法,确保每次做出的菜肴都美味可口。这个聪明的厨师通过观察食材的变化(输入扰动),找到最佳的烹饪方法(几何共识),从而保证每道菜(预测结果)的质量和一致性。这样,即使食材有些变化(输入噪声),他也能做出美味的菜肴(解释性预测)。

简单解释 像给14岁少年讲一样

嘿,小伙伴们!你们知道天气预报是怎么做的吗?其实,科学家们用超级计算机来预测天气,就像你玩游戏时用电脑来计算每个动作一样。不过,有时候这些计算机的预测结果很难理解,就像你玩游戏时不知道为什么角色会突然跑偏。为了让这些预测更容易理解,科学家们发明了一种叫做WassersteinGrad的方法。想象一下,你在玩一个迷宫游戏,WassersteinGrad就像是一个聪明的向导,他会告诉你每一步该怎么走,即使迷宫的墙壁在移动(输入扰动)。这样,你就能更好地理解游戏的规则(预测结果),并找到正确的出口(解释性预测)。是不是很酷?

术语表

WassersteinGrad (Wasserstein梯度)

一种用于解释动态物理场预测的新方法,通过计算扰动归因图的熵Wasserstein重心来提取几何共识。

用于解决传统梯度平滑方法在动态物理场中出现的几何位移问题。

Autoregressive Model (自回归模型)

一种预测模型,其中当前的预测结果作为输入用于下一步的预测。

在天气预报中,自回归模型用于连续时间步的预测。

SmoothGrad (平滑梯度)

一种通过对输入进行多次扰动并平均梯度来减少噪声的解释性AI方法。

用于提高梯度归因图的视觉清晰度。

Entropy Wasserstein Barycenter (熵Wasserstein重心)

一种计算多个概率分布的几何共识的方法,通过熵正则化使得计算更高效。

用于提取扰动归因图的几何共识。

Gradient Attribution (梯度归因)

一种通过计算模型输出相对于输入的梯度来解释模型预测的方法。

用于识别输入中对预测结果影响最大的部分。

Phase Error (相位误差)

一种预测误差类型,预测的现象在空间上错位。

在气象验证中,用于描述预测正确的现象但位置错误的情况。

Optimal Transport (最优传输)

一种数学工具,用于计算两个概率分布之间的最小传输成本。

在WassersteinGrad中用于计算扰动归因图的几何共识。

Sinkhorn Iteration (Sinkhorn迭代)

一种用于计算熵正则化最优传输问题的高效算法。

在WassersteinGrad中用于计算熵Wasserstein重心。

Gaussian Noise (高斯噪声)

一种常用的随机噪声类型,具有正态分布特性。

在SmoothGrad和WassersteinGrad中用于输入扰动。

Attention Mechanism (注意力机制)

一种用于提高模型对输入中重要部分关注度的技术,常用于深度学习模型中。

在Transformer模型中用于动态调整输入特征的权重。

开放问题 这项研究留下的未解疑问

  • 1 如何在高维网格上进一步提高WassersteinGrad的计算效率?尽管通过熵正则化和Sinkhorn迭代进行了优化,但在实际应用中,计算成本仍然较高,需要开发更高效的计算方法。
  • 2 WassersteinGrad在不同的预测模型和空间域上的通用性如何?特别是在其他具有复杂动态特性的物理场中,该方法的有效性尚需验证。
  • 3 如何开发更具物理意义的噪声注入策略?当前的噪声注入策略仍采用白噪声,缺乏物理信息,未来需要探索更具物理意义的扰动策略。
  • 4 在其他动态物理场中,WassersteinGrad的几何共识机制是否同样有效?该机制在天气预报中的成功应用是否可以推广到其他领域,如海洋学、大气科学等。
  • 5 如何进一步提高WassersteinGrad的解释性和鲁棒性?尽管该方法在解释性和鲁棒性上取得了显著提升,但仍需探索新的方法以进一步提高其性能。

应用场景

近期应用

天气预报

WassersteinGrad可以直接应用于天气预报,提高预测结果的解释性和透明度,帮助气象学家更好地理解和解释天气变化。

大气科学研究

通过提高模型预测的透明度,WassersteinGrad可以帮助大气科学家更好地理解和解释复杂的大气现象,推动科学研究的发展。

海洋学应用

在海洋学中,WassersteinGrad可以用于解释海洋动力学模型的预测结果,帮助科学家更好地理解海洋变化。

远期愿景

气候变化研究

WassersteinGrad可以用于气候变化研究,帮助科学家更好地理解和解释气候模型的预测结果,推动气候变化研究的发展。

智能城市规划

通过提高天气预报的准确性和解释性,WassersteinGrad可以为智能城市规划提供更可靠的数据支持,帮助城市管理者做出更明智的决策。

原文摘要

As the demand to integrate Artificial Intelligence into high-stakes environments continues to grow, explaining the reasoning behind neural-network predictions has shifted from a theoretical curiosity to a strict operational requirement. Our work is motivated by the explanations of autoregressive neural predictions on dynamic physical fields, as in weather forecasting. Gradient-based feature attribution methods are widely used to explain the predictions on such data, in particular due to their scalability to high-dimensional inputs. It is also interesting to remark that gradient-based techniques such as SmoothGrad are now standard on images to robustify the explanations using pointwise averages of the attribution maps obtained from several noised inputs. Our goal is to efficiently adapt this aggregation strategy to dynamic physical fields. To do so, our first contribution is to identify a fundamental failure mode when averaging perturbed attribution maps on dynamic physical fields: stochastic input perturbations do not induce stationary amplitude noise in attribution maps, but instead cause a geometric displacement of the attributions. Consequently, pointwise averaging blurs these spatially misaligned features. To tackle this issue, we introduce WassersteinGrad, which extracts a geometric consensus of perturbed attribution maps by computing their entropic Wasserstein barycenter. The results, obtained on regional weather data and a meteorologist-validated neural model, demonstrate promising explainability properties of WassersteinGrad over gradient-based baselines across both single-step and autoregressive forecasting settings.

stat.ML cs.LG

参考文献 (20)

for the Meteo-France

Pierre Brousseau, V. Vogt, É. Arbogast 等

75 引用 ⭐ 高影响力

A multiscale analysis of mean-field transformers in the moderate interaction regime

Giuseppe Bruno, Federico Pasqualotto, Andrea Agazzi

2025 10 引用 ⭐ 高影响力 查看解读 →

SmoothGrad: removing noise by adding noise

D. Smilkov, Nikhil Thorat, Been Kim 等

2017 2579 引用 ⭐ 高影响力 查看解读 →

The Mean-Field Dynamics of Transformers

Philippe Rigollet

2025 8 引用 ⭐ 高影响力 查看解读 →

Deep Inside Convolutional Networks: Visualising Image Classification Models and Saliency Maps

K. Simonyan, A. Vedaldi, Andrew Zisserman

2013 8163 引用 ⭐ 高影响力 查看解读 →

A mathematical perspective on Transformers

Borjan Geshkovski, Cyril Letrouit, Yury Polyanskiy 等

2023 132 引用 ⭐ 高影响力 查看解读 →

Fuzzy verification of high‐resolution gridded forecasts: a review and proposed framework

E. Ebert

2008 476 引用

Certified Adversarial Robustness via Randomized Smoothing

Jeremy M. Cohen, Elan Rosenfeld, J. Kolter

2019 2438 引用 查看解读 →

Decoupled Weight Decay Regularization

I. Loshchilov, F. Hutter

2017 33038 引用

The Shattered Gradients Problem: If resnets are the answer, then what is the question?

David Balduzzi, Marcus Frean, Lennox Leary 等

2017 445 引用 查看解读 →

Towards better understanding of gradient-based attribution methods for Deep Neural Networks

Marco Ancona, Enea Ceolini, Cengiz Öztireli 等

2017 991 引用

Axiomatic Attribution for Deep Networks

Mukund Sundararajan, Ankur Taly, Qiqi Yan

2017 7682 引用 查看解读 →

On the Robustness of Interpretability Methods

David Alvarez-Melis, T. Jaakkola

2018 629 引用 查看解读 →

Fast Discrete Distribution Clustering Using Wasserstein Barycenter With Sparse Support

Jianbo Ye, Panruo Wu, J. Z. Wang 等

2015 136 引用 查看解读 →

Solutions of stationary McKean–Vlasov equation on a high-dimensional sphere and other Riemannian manifolds

Anna Shalova, André Schlichting

2024 11 引用 查看解读 →

A Displacement-Based Error Measure Applied in a Regional Ensemble Forecasting System

C. Keil, G. Craig

2007 100 引用

Backpropagation Applied to Handwritten Zip Code Recognition

Yann LeCun, B. Boser, J. Denker 等

1989 12008 引用

Finding the right XAI method - A Guide for the Evaluation and Ranking of Explainable AI Methods in Climate Science

P. Bommer, M. Kretschmer, Anna Hedström 等

2023 64 引用 查看解读 →

Are artificial neural networks black boxes?

J. M. Benítez, J. Castro, I. Requena

1997 560 引用

On Spectral Properties of Gradient-Based Explanation Methods

Amir Mehrpanah, Erik Englesson, Hossein Azizpour

2025 2 引用 查看解读 →