EnTransformer: A Deep Generative Transformer for Multivariate Probabilistic Forecasting

TL;DR

EnTransformer结合Transformer与engression，实现多变量概率预测，优于现有模型。

cs.LG 🔴 高级 2026-03-12 14 次浏览

Rajdeep Pathak Rahul Goswami Madhurima Panja Palash Ghosh Tanujit Chakraborty

Transformer 概率预测时间序列深度学习多变量

核心发现

方法论

EnTransformer是一种结合了Transformer架构和engression方法的深度生成预测框架。通过在模型表示中注入随机噪声，并优化基于能量的评分目标，直接学习条件预测分布。此设计使得EnTransformer能够生成连贯的多变量预测轨迹，同时保持Transformer有效建模长程时间依赖和跨序列交互的能力。

关键结果

在Solar数据集上，EnTransformer的CRPS-sum得分为0.2421，显著优于其他基准模型，如TimeGrad的0.3335和MG-Input的0.3239。
在Electricity数据集上，EnTransformer的CRPS-sum得分为0.0216，相较于Transformer-MAF的0.0272和TimeGrad的0.0232，表现更为优异。
在Taxi数据集上，EnTransformer以0.1190的CRPS-sum得分领先于其他模型，如LSTM-MAF的0.2295和GP-Copula的0.1894。

研究意义

本研究提出的EnTransformer框架在多变量时间序列的概率预测中展现了卓越的性能，特别是在处理复杂的时间依赖性和跨序列交互方面。通过消除对参数化假设的依赖，该方法为不确定性量化提供了新的视角，能够更好地支持风险管理和异常检测等下游任务。

技术贡献

EnTransformer通过结合Transformer的自注意力机制与engression的随机学习范式，提供了一种无需复杂架构或训练过程的生成式预测方法。其技术贡献在于无需参数化假设即可直接学习条件预测分布，并通过能量评分优化实现多样化的预测轨迹生成。

新颖性

EnTransformer首次将engression方法与Transformer架构结合，用于多变量时间序列的概率预测。与现有方法相比，其创新之处在于通过噪声注入和能量评分优化实现了更为灵活的预测分布建模。

局限性

在处理极端异常值时，EnTransformer可能会出现预测不准确的情况，因为模型对噪声的敏感性可能导致预测偏离。
由于需要进行多次噪声注入，计算开销相对较高，尤其是在大规模数据集上。
在某些数据集上，尽管EnTransformer表现优异，但与最优模型的差距并不显著。

未来方向

未来的研究方向包括优化EnTransformer的计算效率，尤其是在大规模数据集上的应用。此外，可以探索将该框架应用于其他领域，如金融市场预测和气候变化建模，以验证其通用性和适应性。

AI 总览摘要

在现代科学和工业应用中，时间序列预测扮演着至关重要的角色，尤其是在能源管理、交通监控和金融分析等领域。尽管Transformer架构在序列建模中取得了显著成功，但其在概率预测中的应用仍面临挑战。现有方法往往依赖于限制性的参数化假设，难以捕捉复杂的联合预测分布。

本研究提出了一种名为EnTransformer的深度生成预测框架，结合了Transformer的自注意力机制和engression的随机学习范式。通过在模型表示中注入随机噪声，并优化基于能量的评分目标，EnTransformer能够直接学习条件预测分布，而无需参数化假设。

EnTransformer在多个广泛使用的多变量概率预测基准数据集上进行了评估，包括Electricity、Traffic、Solar、Taxi、KDD-cup和Wikipedia数据集。实验结果表明，EnTransformer能够生成校准良好的概率预测，并在多个基准模型上表现出色。

在Solar数据集上，EnTransformer的CRPS-sum得分为0.2421，显著优于其他基准模型。在Electricity数据集上，其得分为0.0216，相较于Transformer-MAF的0.0272和TimeGrad的0.0232，表现更为优异。此框架在Taxi数据集上也展现了卓越的性能，以0.1190的CRPS-sum得分领先于其他模型。

EnTransformer的技术贡献在于无需复杂架构或训练过程即可实现生成式预测，消除了对参数化假设的依赖，为不确定性量化提供了新的视角。未来的研究方向包括优化其计算效率，以及探索在其他领域的应用。

深度分析

研究背景

时间序列预测在科学和工业应用中具有重要意义，尤其是在能源管理、交通监控和金融分析等领域。传统的统计预测方法，如自回归模型和状态空间模型，提供了建模时间依赖性的原则性工具。然而，当应用于高维多变量数据时，其可扩展性和表现力往往会下降。近年来，深度学习的进步将注意力转向神经序列模型，包括递归神经网络（RNN）和Transformer架构，后者利用自注意力机制捕捉序列数据中的长程依赖性。

核心问题

尽管Transformer在确定性序列建模中取得了成功，但将其适用于概率预测仍然具有挑战性。现有的许多深度概率预测模型依赖于限制性的参数化似然假设，或需要精心设计的生成架构来建模预测分布。这种限制可能会限制在高维多变量设置中学习的预测分布的灵活性。

核心创新

EnTransformer的核心创新在于结合了Transformer的自注意力机制与engression的随机学习范式。通过噪声注入和能量评分优化，EnTransformer能够生成多样化的预测轨迹，而无需复杂的架构或训练过程。与现有方法相比，其创新之处在于无需参数化假设即可直接学习条件预测分布。

方法详解

�� EnTransformer结合了Transformer架构和engression方法。
�� 通过在模型表示中注入随机噪声，并优化基于能量的评分目标，直接学习条件预测分布。
�� 该设计使得EnTransformer能够生成连贯的多变量预测轨迹，同时保持Transformer有效建模长程时间依赖和跨序列交互的能力。

实验设计

实验在多个广泛使用的多变量概率预测基准数据集上进行，包括Electricity、Traffic、Solar、Taxi、KDD-cup和Wikipedia数据集。评估指标包括CRPS-sum和NRMSE-sum。实验设计还包括对比现有的多变量预测模型，如Vec-LSTM、GP-scaling、GP-Copula、LSTM-MAF、Transformer-MAF、TimeGrad和MG-Input。

结果分析

实验结果表明，EnTransformer能够生成校准良好的概率预测，并在多个基准模型上表现出色。在Solar数据集上，EnTransformer的CRPS-sum得分为0.2421，显著优于其他基准模型。在Electricity数据集上，其得分为0.0216，相较于Transformer-MAF的0.0272和TimeGrad的0.0232，表现更为优异。

应用场景

EnTransformer在多个领域具有广泛的应用潜力，包括能源系统、交通网络和金融市场等。其生成的概率预测能够为风险管理、异常检测和决策提供支持。

局限与展望

尽管EnTransformer在多个数据集上表现优异，但在处理极端异常值时可能会出现预测不准确的情况。此外，由于需要进行多次噪声注入，计算开销相对较高，尤其是在大规模数据集上。未来的研究方向包括优化其计算效率，以及探索在其他领域的应用。

通俗解读非专业人士也能看懂

想象你在厨房里准备一顿大餐。你有很多不同的食材，比如蔬菜、肉类和调料。为了确保这顿饭味道鲜美，你需要考虑每种食材的组合方式，以及它们在不同烹饪阶段的变化。EnTransformer就像是一个聪明的厨师，它能够根据不同的食材和烹饪条件，预测出这顿饭的最终味道。

在这个过程中，EnTransformer会考虑到每种食材之间的相互作用，就像厨师在考虑不同食材的搭配一样。通过加入一些“随机调料”，它能够生成多种可能的菜肴组合，从而帮助你选择最佳的烹饪方案。

这种方法不仅能够帮助你做出美味的菜肴，还能让你在面对不确定的食材供应时，做出更好的决策。总之，EnTransformer就像是你的厨房助手，帮助你在复杂的烹饪环境中，做出最佳的选择。

简单解释像给14岁少年讲一样

嘿，小伙伴们！想象一下，你在玩一个超级酷的游戏，这个游戏需要你预测未来会发生什么。比如，你要预测明天的天气，或者下周的考试成绩。这个游戏有点难，因为你需要考虑很多因素，比如今天的天气、你复习了多少等等。

现在，想象一下你有一个超级智能的助手，它叫EnTransformer。这个助手就像一个超级大脑，能够帮你分析所有这些因素，然后给出最有可能的结果。它就像是你的游戏攻略，帮助你在游戏中做出最佳选择。

EnTransformer的特别之处在于，它不仅能给出一个结果，还能告诉你可能会发生的其他情况。就像在游戏中，你不仅知道下一步该怎么走，还知道其他可能的路线。

所以，下次你玩这个预测游戏时，记得带上你的超级助手EnTransformer，它会让你在游戏中无往不利！

术语表

Transformer (变压器)

一种深度学习模型，利用自注意力机制来捕捉序列数据中的长程依赖性。

在本论文中用于建模时间序列的长程时间依赖和跨序列交互。

Engression (回归)

一种随机学习范式，通过噪声注入和能量评分优化实现条件预测分布的学习。

结合Transformer用于多变量时间序列的概率预测。

CRPS-sum (连续排名概率评分和)

一种评估概率预测模型性能的指标，越低表示模型性能越好。

用于评估EnTransformer在各个数据集上的预测性能。

NRMSE-sum (归一化均方根误差和)

一种评估预测模型精度的指标，越低表示模型精度越高。

用于评估EnTransformer与基准模型的精度对比。

Energy Score (能量评分)

一种严格的评分规则，通过评估生成样本的经验分布来评估多变量概率预测的质量。

用于优化EnTransformer的预测分布。

Self-Attention (自注意力)

一种机制，允许每个时间步动态关注序列中的其他位置。

在Transformer中用于捕捉时间序列中的长程依赖性。

Multi-Head Attention (多头注意力)

一种将查询映射到输出序列的机制，通过多个注意力头实现。

在Transformer中用于增强模型的表示能力。

Stochastic Noise (随机噪声)

一种通过注入随机扰动来生成多样化预测轨迹的方法。

在EnTransformer中用于生成多样化的预测轨迹。

Proper Scoring Rule (严格评分规则)

一种用于评估概率预测质量的评分规则，确保模型生成的预测分布准确。

在EnTransformer中通过能量评分实现。

Probabilistic Forecasting (概率预测)

一种预测方法，生成的不仅是单一预测值，还包括预测的不确定性。

EnTransformer用于生成多变量时间序列的概率预测。

开放问题这项研究留下的未解疑问

1 如何在不增加计算复杂度的情况下，提高EnTransformer在大规模数据集上的性能？现有方法在处理大规模数据时，计算开销较高，需要探索更高效的计算策略。
2 在极端异常值的情况下，如何提高EnTransformer的预测准确性？现有模型对噪声的敏感性可能导致预测偏离，需要开发更鲁棒的预测方法。
3 如何将EnTransformer应用于其他领域，如金融市场预测和气候变化建模？需要验证其在不同领域的通用性和适应性。
4 如何优化EnTransformer的能量评分机制，以提高预测分布的准确性？现有机制可能在某些情况下表现不佳，需要进一步改进。
5 在多变量时间序列预测中，如何更好地捕捉跨序列交互？现有方法可能在处理复杂交互时存在局限，需要探索更有效的建模策略。

应用场景

近期应用

能源系统预测

EnTransformer可以用于预测电力需求和太阳能发电量，帮助能源公司优化资源配置。

交通网络监控

通过预测交通流量和道路占用率，EnTransformer能够支持交通管理部门进行有效的交通调控。

金融市场分析

EnTransformer可以用于预测股票价格和市场趋势，为投资者提供决策支持。

远期愿景

气候变化建模

通过预测气候变化趋势，EnTransformer可以为环境保护和政策制定提供科学依据。

智能城市规划

EnTransformer可以用于预测城市发展趋势，支持智能城市的规划和建设。

原文摘要

Reliable uncertainty quantification is critical in multivariate time series forecasting problems arising in domains such as energy systems and transportation networks, among many others. Although Transformer-based architectures have recently achieved strong performance for sequence modeling, most probabilistic forecasting approaches rely on restrictive parametric likelihoods or quantile-based objectives. They can struggle to capture complex joint predictive distributions across multiple correlated time series. This work proposes EnTransformer, a deep generative forecasting framework that integrates engression, a stochastic learning paradigm for modeling conditional distributions, with the expressive sequence modeling capabilities of Transformers. The proposed approach injects stochastic noise into the model representation and optimizes an energy-based scoring objective to directly learn the conditional predictive distribution without imposing parametric assumptions. This design enables EnTransformer to generate coherent multivariate forecast trajectories while preserving Transformers' capacity to effectively model long-range temporal dependencies and cross-series interactions. We evaluate our proposed EnTransformer on several widely used benchmarks for multivariate probabilistic forecasting, including Electricity, Traffic, Solar, Taxi, KDD-cup, and Wikipedia datasets. Experimental results demonstrate that EnTransformer produces well-calibrated probabilistic forecasts and consistently outperforms the benchmark models.

cs.LG cs.AI stat.ML

参考文献 (20)

MG-TSD: Multi-Granularity Time Series Diffusion Models with Guided Learning Process

Xinyao Fan, Yueying Wu, Chang Xu 等

2024 45 引用 ⭐ 高影响力查看解读 →

Engression: Extrapolation through the Lens of Distributional Regression

Xinwei Shen, N. Meinshausen

2023 34 引用 ⭐ 高影响力查看解读 →

Forecasting: principles and practice

Rob J Hyndman, G. Athanasopoulos

2013 4164 引用

Autoformer: Decomposition Transformers with Auto-Correlation for Long-Term Series Forecasting

Haixu Wu, Jiehui Xu, Jianmin Wang 等

2021 4141 引用查看解读 →

Modeling Uncertainty With Engression: A Deep Generative Time‐Series Approach

Basil Kraft, Steven Stalder, William H. Aeberhard 等

2026 2 引用

Permutation Dependent Feature Mixing for Multivariate Time Series Forecasting

Rikuto Yamazono, H. Hachiya

2024 1 引用

Generative Time Series Forecasting with Diffusion, Denoise, and Disentanglement

Y. Li, Xin-xin Lu, Yaqing Wang 等

2023 162 引用查看解读 →

The M3 competition: Statistical tests of the results

A. Koning, P. Franses, M. Hibon 等

2005 195 引用

A Time Series is Worth 64 Words: Long-term Forecasting with Transformers

Yuqi Nie, Nam H. Nguyen, Phanwadee Sinthong 等

2022 2992 引用查看解读 →

TACTiS: Transformer-Attentional Copulas for Time Series

Alexandre Drouin, 'Etienne Marcotte, Nicolas Chapados

2022 54 引用查看解读 →

Multi-variate Probabilistic Time Series Forecasting via Conditioned Normalizing Flows

Kashif Rasul, Abdul-Saboor Sheikh, I. Schuster 等

2020 219 引用查看解读 →

Probabilistic Transformer For Time Series Analysis

Binh Tang, David S. Matteson

2021 136 引用

A Multi-Horizon Quantile Recurrent Forecaster

Ruofeng Wen, K. Torkkola, Balakrishnan Narayanaswamy 等

2017 508 引用查看解读 →

Strictly Proper Scoring Rules, Prediction, and Estimation

T. Gneiting, A. Raftery

2007 6096 引用

Temporal Fusion Transformers for Interpretable Multi-horizon Time Series Forecasting

Bryan Lim, Sercan Ö. Arik, Nicolas Loeff 等

2019 2297 引用查看解读 →

High-Dimensional Multivariate Forecasting with Low-Rank Gaussian Copula Processes

David Salinas, Michael Bohlke-Schneider, Laurent Callot 等

2019 264 引用查看解读 →

Recalibrating probabilistic forecasts of epidemics

A. Rumack, R. Tibshirani, R. Rosenfeld

2021 8 引用查看解读 →

Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

Haoyi Zhou, Shanghang Zhang, Jieqi Peng 等

2020 6742 引用查看解读 →

Deep Generative Spatiotemporal Engression for Probabilistic Forecasting of Epidemics

Rajdeep Pathak, Tanujit Chakraborty

2026 1 引用查看解读 →

Traffic

Marcel Laflamme

2004 196 引用

EnTransformer: A Deep Generative Transformer for Multivariate Probabilistic Forecasting

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

Transformer (变压器)

Engression (回归)

CRPS-sum (连续排名概率评分和)

NRMSE-sum (归一化均方根误差和)

Energy Score (能量评分)

Self-Attention (自注意力)

Multi-Head Attention (多头注意力)

Stochastic Noise (随机噪声)

Proper Scoring Rule (严格评分规则)

Probabilistic Forecasting (概率预测)

开放问题 这项研究留下的未解疑问

应用场景

近期应用

能源系统预测

交通网络监控

金融市场分析

远期愿景

气候变化建模

智能城市规划

原文摘要

参考文献 (20)

相关论文

PhysMoDPO: Physically-Plausible Humanoid Motion with Preference Optimization

Representation Learning for Spatiotemporal Physical Systems

Learnability and Privacy Vulnerability are Entangled in a Few Critical Weights

MXNorm: Reusing MXFP block scales for efficient tensor normalisation

ZO-SAM: Zero-Order Sharpness-Aware Minimization for Efficient Sparse Training

BoSS: A Best-of-Strategies Selector as an Oracle for Deep Active Learning

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问