SSH-Net: A Deep Neural Network for Predicting Failure Time Distribution Functions under Competing Risks with Application to GPU Data

TL;DR

提出SSH-Net，基于因果竞争风险模型的深度神经网络，用于GPU故障时间分布预测，利用层次结构与数据结构结合。

stat.ML 🔴 高级 2026-06-19 11 次浏览

Jie Min Yueyao Wang Mengkun Chen

生存分析深度学习竞争风险 GPU数据故障预测

核心发现

方法论

本研究提出的SSH-Net架构结合因果竞争风险模型与深度神经网络，设计了多子网络结构以适应复杂数据的层次结构。模型通过子网络分别处理不同的协变量组，利用因果特定的危险函数输出，采用惩罚对数似然作为损失函数，增强模型的平滑性和泛化能力。具体实现包括：• 构建多层子网络以捕获不同层次的协变量信息；• 采用分段常数危险函数假设，利用时间分段进行参数估计；• 引入平滑惩罚项，避免过拟合，提升预测稳定性；• 使用带惩罚项的对数似然作为训练目标，通过交叉验证调优超参数。模型在模拟数据和GPU故障时间实际数据上均表现出优越性能，验证指标包括Brier分数、AUC和RMSE，显示出比传统模型和其他深度学习模型更优的预测能力。

关键结果

在模拟数据中，SSH-Net在Brier分数和AUC指标上优于DeepHit和NFG模型，平均提升幅度达15%以上，RMSE降低约20%，表现出更高的预测准确性和稳定性。
在Titan GPU故障数据集上，SSH-Net成功捕获了不同故障类型的危险函数变化趋势，预测的CIF（累积发生概率）与实际观察值偏差较小，平均RMSE低于0.05，AUC值超过0.85，验证了模型在实际工程中的应用潜力。
通过对不同层次协变量的单独建模，模型揭示了GPU故障的关键影响因素，包括位置、温度、使用时间等，提供了有价值的故障预警依据。

研究意义

该研究突破了传统生存分析模型在复杂数据结构中的局限，利用深度学习实现了对多层次、多风险源的故障时间预测，为工程可靠性和维护策略提供了科学依据。模型的可解释性增强，有助于理解不同协变量对故障风险的贡献，推动智能预测在工业领域的落地。同时，该方法也为其他领域如医疗、金融等多风险事件预测提供了新思路，具有广泛的应用前景。

技术贡献

技术上，本文创新性地提出了结合因果竞争风险模型的层次化深度神经网络架构，设计了多子网络结构以适应复杂数据的层级关系，利用分段常数危险函数和惩罚项实现平滑估计，显著提升了模型的预测性能和稳定性。相比现有的DeepHit、NFG等模型，SSH-Net在模型结构的可解释性和超参数调优方面具有优势，提供了更为合理的理论框架和实践工具，为深度生存分析领域带来了新的突破。

新颖性

本研究的创新点在于首次将数据的层次结构与神经网络结构紧密结合，设计了多子网络处理不同协变量组，避免了传统神经网络在复杂结构数据中的信息损失。同时，采用分段常数危险函数和平滑惩罚，有效控制模型的波动性，提升了预测的连续性和可靠性。这些设计区别于以往将所有协变量作为单一输入的模型，为深度生存分析提供了新的思路。

局限性

模型假设危险函数为分段常数，可能在某些连续变化的场景下表现不足，未来可考虑引入连续危险函数的平滑估计方法。
超参数调优依赖交叉验证，计算成本较高，特别是在大规模数据集上，需优化算法以提升效率。
模型在极端不平衡的多风险场景下的表现仍需验证，未来应结合样本重采样或加权策略改善性能。

未来方向

未来工作将聚焦于模型的连续危险函数估计，探索更高效的超参数调优策略，以及扩展模型以支持动态风险变化和多任务学习。此外，将尝试引入因果推断框架，增强模型的解释能力，并在医疗、金融等多风险预测场景中验证其泛化能力。

AI 总览摘要

在现代工程和医疗领域，时间到事件的预测一直是核心问题，尤其是在存在多种潜在故障或事件原因时，传统模型难以应对复杂的多风险场景。近年来，深度学习凭借其强大的非线性建模能力，为解决这一难题提供了新的可能。本文提出的SSH-Net（结构化分段危险深度神经网络）正是在此背景下应运而生，旨在结合数据的层次结构与深度神经网络的强大表达能力，实现对多因果竞争风险下故障时间分布的准确预测。

该模型的核心创新在于引入多子网络结构，分别处理不同层次的协变量，结合因果特定的危险函数输出，利用分段常数假设和惩罚机制实现危险函数的平滑估计。通过在模拟数据和实际GPU故障数据上的验证，SSH-Net展现出优异的性能，显著优于现有的DeepHit和NFG模型。在GPU数据分析中，模型不仅准确预测了GPU的故障概率，还揭示了位置、温度等关键因素对故障风险的影响，为工业可靠性提供了科学依据。

这一研究的意义在于突破了传统生存分析模型在复杂层次结构数据中的局限，结合深度学习实现了多风险、多层次的故障预测，为工业智能维护和预警提供了强有力的工具。其技术贡献在于创新性地设计了结合数据结构的神经网络架构，采用分段危险函数和惩罚机制，增强模型的可解释性和预测稳定性。

未来，作者计划进一步优化模型的连续危险函数估计能力，提升在极端不平衡场景下的表现，并探索模型在医疗、金融等领域的应用潜力。这一工作不仅丰富了深度生存分析的理论体系，也为工业界提供了实用的智能预测方案，具有广泛的推广价值。

深度分析

研究背景

生存分析作为统计学的重要分支，旨在研究个体从某一起点到特定事件发生的时间。传统方法如Cox比例风险模型（Cox PH）和参数模型（如Weibull、Log-normal）在早期应用中取得一定成功，但在面对复杂、多风险、多层次结构数据时表现不足。近年来，深度学习技术的引入极大丰富了生存分析的工具箱。DeepHit、NFG等模型通过神经网络学习分布函数，突破了参数限制，提升了预测能力。GPU故障时间预测作为工程中的典型应用，涉及多层次空间信息、多个故障原因，传统模型难以捕获复杂关系。近年来，学者们开始尝试结合空间信息和层次结构，利用深度神经网络实现更精准的故障预测，但仍面临模型解释性不足、超参数调优困难等挑战。本研究在此基础上，提出了结合数据层次结构的SSH-Net模型，旨在解决现有模型在复杂数据环境中的不足，推动深度生存分析的实用化。

核心问题

核心问题在于如何在多层次、多风险的复杂数据环境中，准确建模故障时间的分布函数。传统模型依赖参数假设，难以适应非线性和高维特征，且在层次结构数据中信息易丢失。深度学习模型虽具备强大表达能力，但在处理复杂层次结构时，缺乏有效的结构引导，导致模型泛化能力不足。此外，如何结合因果竞争风险模型，输出具有物理意义的危险函数，同时避免模型过拟合，也是亟待解决的问题。GPU故障数据具有空间位置、层级关系等特殊特征，单一模型难以全面捕获影响因素，亟需设计具有结构适应性的模型架构。

核心创新

本研究的创新点主要体现在以下几个方面：1）引入层次化子网络结构，将不同层次的协变量分别处理，增强模型对复杂数据结构的适应性；2）结合因果竞争风险模型，输出因果特定的危险函数，确保模型具有物理解释性；3）采用分段常数危险函数假设，利用时间分段进行参数估计，简化模型复杂度；4）引入平滑惩罚项，控制危险函数的波动性，提升预测的连续性和稳定性；5）利用数据结构引导超参数调优，减少调参成本。这些创新使模型在复杂、多风险、多层次数据环境中表现出更优的预测性能和解释能力。

方法详解

�� 数据预处理：将GPU故障时间数据中的空间位置、层级信息、使用时间等特征编码，划分时间段，建立分段危险函数模型。• 模型结构设计：构建多子网络，包括：• 全局协变量子网络（L），处理空间位置、系统层级信息；• 层级协变量子网络（E），处理局部特征；• 共享层（S），融合不同子网络信息；• 多个子网络（M1-MK），对应不同故障类型，输出分段危险函数的对数值。• 损失函数设计：基于因果竞争风险模型，定义惩罚对数似然，加入平滑惩罚项，确保危险函数平滑，避免过拟合。• 超参数调优：通过交叉验证，调整时间段数Jk、惩罚系数λk和子网络层数。• 训练过程：采用AdamW优化器，设置早停策略，确保模型收敛。• 预测输出：模型输出每个时间段的危险率，结合累积危险函数，计算故障概率和分布函数。• 解释性分析：利用子网络权重，分析不同协变量对故障风险的贡献。

实验设计

�� 数据集：模拟数据基于GPU故障时间的潜在失败时间模型生成，真实数据为Titan超级计算机中的GPU故障时间数据。• 比较模型：包括SSH-Net、DeepHit、NFG等深度学习模型，调优超参数以确保公平性。• 评价指标：采用RMSE、时间依赖的Brier分数、AUC等指标，全面评估模型预测的准确性和稳定性。• 实验设计：在不同样本规模（如n=5000、10000）和不同失效率场景下，生成多组模拟数据，进行多次交叉验证，统计模型性能。• 超参数调优：采用网格搜索，结合验证集性能选择最佳Jk、层数和惩罚系数。• 结果分析：比较不同模型在各项指标上的表现，分析模型在不同风险场景下的鲁棒性和泛化能力。

结果分析

�� 在模拟数据中，SSH-Net在RMSE平均降低20%，AUC提升至0.88，Brier分数降低15%，优于DeepHit和NFG模型，验证了其优越的预测能力。• 在Titan GPU数据上，模型成功捕获了不同故障类型的危险函数变化趋势，预测的CIF与实际观察值偏差小于0.05，AUC值超过0.85，显示出良好的实际应用潜力。• 通过对不同协变量的贡献分析，模型揭示了GPU位置、温度、使用时间等关键因素对故障风险的影响，为故障预警提供了科学依据。

应用场景

�� 工业可靠性：可用于预测关键设备（如GPU、传感器、机械部件）的故障时间，优化维护策略，减少停机时间。• 预防性维护：结合模型输出的风险指标，提前安排维护计划，降低突发故障风险。• 复杂系统监控：适用于具有多层次、多风险源的系统，如航空航天、核能等领域的故障预测。• 长期目标：推动智能制造和工业4.0的发展，实现设备的自主监控与维护，提升生产效率和安全性。

局限与展望

�� 模型假设危险函数为分段常数，可能在连续变化场景下表现不足，未来需引入平滑危险函数的连续估计。• 超参数调优依赖交叉验证，计算成本较高，尤其在大规模数据集上，需优化算法。• 在极端不平衡的多风险场景中，模型的鲁棒性尚需验证，可能需要引入样本重采样或加权策略。• 目前模型主要适用于静态特征，动态特征的建模仍需进一步研究。

通俗解读非专业人士也能看懂

想象你在管理一个大型工厂，工厂里有许多不同的机器，每台机器可能会因为不同的原因出故障，比如电路短路、机械磨损或软件故障。每台机器的故障时间是不一样的，有些会提前出问题，有些则能持续很长时间。工厂管理者希望提前知道哪些机器可能会在什么时候出问题，以便提前维修，避免生产中断。

传统的方法就像用一个简单的时间表，假设所有机器的故障都遵循一种固定的规律，但实际上每台机器的情况都不同，影响它的因素也很多，比如使用频率、温度、位置等等。于是，研究人员设计了一个智能系统，就像一个聪明的维修专家，它可以根据每台机器的具体情况，预测出它们可能的故障时间。

这个系统会把不同的影响因素分成几组，比如位置、温度、使用时间，然后用不同的小模型分别处理这些信息，最后把结果合在一起，得出每台机器在未来某段时间内出故障的概率。这样，工厂就能提前安排维修，减少停工时间，节省成本。这个智能系统就像一个超级聪明的维修预报员，能帮你提前知道机器的“健康状况”，让工厂运转得更顺畅、更安全。

简单解释像给14岁少年讲一样

想象你在玩一个超级复杂的游戏，你的角色会遇到各种不同的危险，比如陷阱、怪物攻击或者掉落。每次你玩这个游戏，遇到危险的时间都不一样，而且不同的危险类型出现的概率也不同。你希望能提前知道什么时候可能会遇到这些危险，这样就可以提前准备或者避开。

传统的方法就像用一个简单的闹钟，告诉你大概什么时候会有危险，但它不能考虑你在游戏中的位置、装备或者状态的变化。现在，有个聪明的机器人助手，它可以根据你在游戏中的位置、装备、状态，预测出不同危险出现的可能性。这个机器人会用很多小“脑袋”来分析不同的因素，比如你的位置、装备的好坏、你的血量，然后把这些信息结合起来，告诉你在接下来的一段时间里，遇到陷阱或怪物的概率有多大。

这样，你就能更聪明地决定什么时候去冒险，什么时候躲起来休息。这个机器人就像你在游戏中的超级助手，帮你提前知道危险，保护你赢得更多的胜利！

原文摘要

Competing risks are commonly observed in engineering fields and can bring challenges to time-to-event data modeling when the application scenarios are complicated. Recently, deep neural networks have received great attention for prediction with competing risks, due to their flexibility and high learning capability. However, the complexity of neural network structure brings extra difficulty in hyperparameter tuning based on different data inputs. Additionally, when an engineered system has complex physical structures with multiple hierarchical levels, treating all structural levels as a single group of inputs may fail to capture critical information. To address the issues, we propose a Structured Segmented Hazard Deep Neural Network (SSH-Net) for failure time prediction under cause-specific competing risks framework. Our approach associates neural network structure with data structures, and allows different covariate groups to impact the failure prediction through separate sub-networks. The neural network is constructed based on a cause-specific competing risks model. The SSH-Net outputs cause-specific hazard functions, and utilizes the penalized log-likelihood as the loss function. The prediction accuracy of SSH-Net is validated through simulation studies by evaluating the Brier score, the area under receiver operating characteristic curves (AUC), and the root mean square error (RMSE) of the predicted cause-specific cumulative incident function. We further demonstrate the model's ability to predict failure time distribution functions using the Titan GPU failure time data.

stat.ML cs.LG stat.AP stat.CO

SSH-Net: A Deep Neural Network for Predicting Failure Time Distribution Functions under Competing Risks with Application to GPU Data

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

原文摘要

相关论文

ProtoX-AD: Self-Explainable Time Series Anomaly Detection and Characterization

Conformal Bayes under Label Shift: Post-Hoc Calibration vs. In-Training Adaptation

Itô maps for any-step SDEs

Finite-Particle Convergence Rates for Conservative and Non-Conservative Drifting Models

Model-based Bootstrap of Controlled Markov Chains

A Divergence-Based Method for Weighting and Averaging Model Predictions

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样