基于TimeGAN的轨道交通LTE-M故障预测研究

known 发布于 2025-08-25 阅读(328)

中图分类号:TP391 文献标识码:A 文章编号:2096-4706(2025)08-0010-06

Abstract:The Long TermEvolution of Metro (LTE-M) network fault prediction datasetof rail transit has the problems ofunbalancedsamplesandsmallamountofsampledatawhichimpacttheacuracyoffault prediction.Inordertosolvethe above problems,this paper proposes aresearch methodofLTE-Mfault predictionofrail transitbased onconditionalTime-series Generative Adversarial Networks (TimeGAN).Bydefiningdynamic autoencoderandstatic autoencoderinTimeGANmodel,this method furtherexploresthedynamicandstaticcharacteristicsofLT-Mfaultdataofrailtransit,andintroducesGELUactivation functionnthepotentialspaceofgeneratoranddiscriminatortoaceleratemodelconvergenceandgeneratesyntheticdatacloser toreal data,thusefectivelyalleviating the problemofunbalancedfaultdatasetandsmalldatavoume.Theexperimentalresults showthatwhenthedatasynthesizedbytheTimeGANmodelisusedforfaultpredictiontraining,itcanproducebeterediction results than the original data.

Keywords:rail transitLTE-M;fault prediction;time-series;TimeGAN

0 引言

随着新一代移动通信的飞速发展,轨道交通通信基础设施规模也迅速扩展,LTE-M网络作为轨道交通网络关键组成部分,其复杂性也随之增加。轨道交通LTE-M网络系统中任何一个设备发生故障都可能触发一系列设备的连锁告警反应,从而产生大量的告警信息。这不仅阻碍网络管理人员对故障的及时和准确定位,也极大地增加了网络维护的难度。实时准确监测网络设备并实现故障快速定位甚至预测网络故障成为维护网络通信质量的核心任务。

随着深度学习在故障预测领域的广泛应用,深度学习技术对网络故障预测的研究也层出不穷,但是现有故障预测研究,对时间序列特征间关系的挖掘还不够充分,导致预测精度较低。基于深度学习的时间序列预测主要涉及金融股票[1]、轨迹预测[2]和工业指标[3]等多个领域。基于深度学习的故障预测方法通过学习历史数据的特征,展现出对网络结构调整的高度适应性。施清译[4等提出一种将时序生成对抗网络和通道空间双注意力机制相结合的数据生成方法,合成了与实际电器功率数据相似度较高的合成数据。虽然深度学习技术的发展带来了预测性能的提升,但其性能的提升往往依赖于大量的训练样本数据集。然而,在面对实际数据集时,可能面临数据量不足导致样本不均衡等问题。数据集的数量较少使得预测模型难以捕获数据中的特征依赖关系,预测模型的准确性往往难以达到预期。

数据增强是扩充数据的一种方法,近年来广泛应用于回归分析和分类领域,并取得了较大进展。然而,针对时间序列数据的增强方法研究仍然较少。对抗生成网络(GAN)[5]利用合成虚拟样本的概念,创造了合成数据。通过联合训练生成器和判别器,GAN逐步拟合原始数据分布。基于GAN的数据增强策略,Zhang等开发了一种改进的耦合生成器对抗堆叠自编码器(ICoGASA),以模拟更真实的天气预报误差和不同居民的生活方式,并根据训练样本生成合成样本(RSS)。改进的条件生成对抗网络(RegGAN)[7]通过采样生成新的特征数据,并改进了CGAN以生成相应的估计值。连续循环神经网络(C-RNN-GAN)结合了对抗性训练和循环神经网络,用于时间序列数据增强,但未能很好地捕捉时间步依赖关系及其动态特征。Yoon等人提出的TimeGAN方法结合了预测任务的监督学习和编码任务的非监督学习,有效生成时间序列数据。Zhang[1o]等,提出数据的质量和数量是影响模型预测精度的关键,并将TimeGAN应用于供热领域,增加了数据量,并提高了预测模型的精度。王渝红[等,提出一种基于条件生成对抗网络(CGAN)与迁移学习的暂态电压稳定超前判别方法,取得了较好的实验效果。周琳茹[12]等,采用基于注意力机制的生成对抗网络对任务分析方法进行研究,使得模拟生成的数据集精度有了较好的提升。

基于上述轨道交通LTE-M网络故障预测研究中存在的问题,首先分析轨道交通LTE-M网络故障特征,并引入TimeGAN模型,该模型将自回归学习和对抗学习无监督训练相结合,使用两个自编码器分别处理动静态数据,进一步挖掘轨道交通LTE-M网络故障的潜在静态分布规律和动态依赖演变特性,从数据层面解决数据集中存在的样本不均衡问题;在生成器与判别器的潜在空间使用GELU激活函数,GELU函数的平滑性和近似线性特性有助于加速梯度下降算法的收敛,使TimeGAN模型更快地学习和适应数据,生成高质量的新样本。为了验证生成数据的真实性和有用性,比较了数据增强方法所生成数据的分布差距以及合成数据用于预测时的预测效果。

1轨道交通LTE-M网络故障特点分析

轨道交通LTE-M网络故障与告警日志数据和网络日常运行数据的变化密切相关。在轨道交通LTE-M网络管理系统中,网络日常运行数据可以提供关于故障发生时设备状态的详细信息,帮助网络管理人员及时进行故障定位。告警日志数据记录系统在设备运行过程中记录各种告警事件,包括设备号、告警名称、告警级别以及发生时间等信息,如表1所示是部分网络告警日志记录的示例。

表1告警日志记录数据示例

如表2所示是部分网络日常运行数据的示例。通过分析告警日志数据以及网络日常运行数据总结出LTE-M网络故障数据动静态特征。本文将轨道交通LTE-M故障数据集特征划分为两个维度。

表2网络日常运行数据

1)告警日志数据:告警日志数据是记录不同告警发生时间的数据,其告警的种类在系统中是有限,数据种类是有限的意味着数据集中的每个数据点都属于已知的、固定的类别或取值范围,在一定范围内是固定不发生变化的,因此可以将告警数据看作静态特征数据。

2)网络日常运行数据:网络日常运行数据记录网络设备运行状态,其是典型的时间序列,当网络日常运行数据出现异常波动时,可能预示着网络设备在运行过程中,出现了异常。这类数据随着时间的波动变化具有季节性、周期性等特点,故将这类数据划分为时态特征数据。

2 TimeGAN原理

TimeGAN模型由三个部分组成,分别是GAN网络、动态编码器和静态编码器,如图1所示。该模型为了降低对抗性学习空间的高维性,引入了两个嵌入网络,分别提供动态和静态特征与潜在表示之间的可逆映射关系。在学习嵌入空间对抗性联合训练时,引入使用原始数据作为监督的逐步监督损失以及真实序列和合成序列上的无监督对抗损失,从而鼓励模型捕捉数据中的逐步条件分布。

基于TimeGAN模型将时间序列数据特征划分为两种:静态特征和时态特征。考虑轨道交通LTE-M网络故障数据包含静态特征和动态特征。联合训练四个损失函数的主要目的是减少合成数据与原始数据在特征分布上的差异。TimeGAN的目标是将GAN目标和ML目标相结合。这样自然会产生一个训练过程,其中包括简单地添加监督损失来指导对抗性学习:

图1TimeGAN模型结构图

2.1 嵌入式和恢复网络

TimeGAN模型中,加入两个嵌入式和恢复网络的自的是进行动态和静态数据隐藏空间和特征之间的映射转换,实现对轨道交通LTE-M网络故障数据集特征计算维度的降低,同时让生成器G在低维度空间中学习数据集的潜在时间逐步依赖分布[13]。本文设计了两个自编码器网络将动态特征数据和静态特征数据分开进行特征提取,减少特征之间的干扰,提高模型的性能和泛化能力,嵌入网络与恢复网络维护一个重构损失函数LR:

在时间序列数据中,为了生成与真实数据分布接近的合成数据,对于D和G网络的对抗训练损失函数LU定义为:

为了准确的捕捉到时间序列在时间维度上的动态特征,生成器G在生成数据时,基于时刻t-1的输入数据预测下一时间步 t 的数据。这意味着生成网络能够在隐藏空间中学习并捕捉整个时间窗口内数据在特征维度和时间维度的分布。其预测损失函数LS公式为:

2.2生成网络和判别网络

本文将两个自编码网络提取特征之后的动态特征数据和静态特征数据叠加组合,得到一个综合特征向量输入到生成器中,整体训练过程包括数据的预处理、降维和模型训练。针对连续的网络日常运行数据预处理采用标准化和平滑化处理,离散数据则采用热独立编码建立索引,在离散的告警日志数据降维中将稀疏的热独立编码降维成稠密的矩阵。将降维后的综合特征向量输入LSTM中得到当前时刻的状态输出,如式: ,其中, ν 为迭代更新函数, 为输入的时间序列, s 为静态特征数据。

2.3 GELU激活函数

激活函数作为神经网络是否传递信息的“开关”,对于神经网络来说至关重要。高斯误差线性单元激活函数(GELU)是在激活中引入了随机正则的思想,对神经元的输入进行概率描述,本文提出将GELU激活函数应用于TimeGAN生成器网络和判别器网络的隐藏层。

GELU函数是一种平滑的非线性函数,其曲线呈现类似S型曲线的形状。其在整个实数范围内都有连续的导数,从而更容易优化和训练深度神经网络。GELU函数呈现线性的特性能够避免梯度消失和梯度爆炸,能够稳定生成对抗网络的参数更新。使用GELU函数作为激活函数可以加速模型的训练收敛过程,减少训练时间和资源消耗,使TimeGAN模型更快地学习和适应数据。

3 LTE-M网络故障预测实现

3.1 基于TimeGAN的轨道交通LTE-M故障预测实现流程

基于TimeGAN的轨道交通LTE-M故障预测实现,具体步骤如下:

1)收集整理地铁近16个月以来的网管告警日志和设备日常运行日志数据,确保样本覆盖常见故障模型与变化趋势,并对日志进行清洗,剔除噪声,采用Min-Max对训练样本进行归一化,将各个数据特征值统一到相同的量级。2)在TimeGAN网络结构中,配置生成器、判别器和自编码器模块,确保生成数据在时间序列和特征空间上的一致性。设置调整TimeGAN模型网络的超参数,将训练样本输入模型进行训练。3)利用训练完成的TimeGAN模型生成与原始数据分布相似的合成故障数据,以扩展训练样本量并增强模型的鲁棒性。4)将TimeGAN生成数据和原始数据一同输入LSTM网络,以进行故障预测模型的训练。5)通过MAPE、 、MAE等指标,量化模型在预测故障时的表现。

3.2 评估指标

3.2.1 数据生成评估指标 t-S N E

针对本文所提及的训练TimeGAN模型测试,本文将合成的数据与原始数据进行t分布-随机近邻嵌入(t-SNE)。 是一种降维技术,其将不同数据之间的相似程度转化为概率分布。使得具有相似特征的过程数据在低维空间中呈现相似的分布,有助于评估合成数据的真实性。

3.2.2 故障预测评估指标

为了验证文中提及的数据生成方法的可行性和有效性,需对故障预测效果进行质量评估。采用MAPE、 、MAE等指标,具体内容如:

1)MAPE。平均绝对百分比误差(MAPE)是用来衡量时序序列拟合精度的统计指标。MAPE的值越小,说明故障预测模型精度越高。

其中, N 为样本的数量,即预测值和实际值的总数, 为实际值,第 i 个样本的真实值。 为预测值,

第 i 个样本的预测值。

2) 。为了直接的观察故障预测结果的准确性,通过对模型拟合程度进行检验。越接近1表示拟合程度越好。

其中, 为第 i 个样本的真实值。 为第 i 个样本的预测值。

3)MAE。MAE是真实值与拟合值之间差值的绝对值之和的平均值,仅衡量误差的平均模长,而不考虑方向,取值范围也是[0, + ∞ ] 。当真实值与拟合值完全吻合时,等于0,即完美模型;误差越大,该值越大。

其中, 为第 i 个样本的真实值。 为第 i 个样本的预测值。

4实验结果与分析

4.1 训练数据处理

地铁14号线和18号线2022年12月至2023年12月期间设备日常运行数据和告警日志部分数据如图2所示。

时间序列数据集有一个额外的维度一一时间,可将其视为3D数据集。如图2所示,一个包含四个特征和四个输入实例的数据集,本文时间序列数据是在该数据集上的第三维扩展,其中每个新表格只是新时间步长的另外一个数据集,本文选取一个大小为24的窗口,并将这个窗口沿着数据集纵向移位采样,从而获得更多数量的2D矩阵,每个矩阵的长度为24,并具有该数据集所有列的特征。在上述示例数据集中,有26行。通过每24行移位采样,可得到3个2D矩阵,每个矩阵有24行和4个特性,得出一个维度为(3,(24,4))的数据集,其中每个实例中有24行和4个特性。此外,在将数据集输入TimeGAN之前,需要对数据集进行重构,以便模型能够在固定的时间长度内学习数据的时间动态。

4.2 超参数设置

本文实验是在Python3环境中使用TensorFlow和Keras进行的。训练过程在一台使用NVIDIAH100GPU的机器上进行。在TimeGAN模型的训练中,选择4种不同的故障类型和4种不同网络日常运行数据类型进行合成序列生成,每个序列长度为10000,使用大小为24的滑动时间窗来捕获时间依赖性。该架构使用三层门控循环单元(GRU)网络构建,用于嵌入、恢复以及生成和判别组件,隐藏层的维度是设备类型数量的四倍。采用数据归一化来促进模型收敛,生成的序列进行反归一化以解释结果,λ和分别设置为1和16。以TimeGAN为基准,所有训练都使用Adam优化器进行细化,设置学习率为0.0001,beta值为0.9和0.999。

4.2.1 数据生成与可视化

为了验证本文所提出的数据增强方法能够改善轨道交通LTE-M网络故障预测精度因数据不均衡和数据量小而不准确的问题,将收集整理的地铁12个月的LTE-M网络故障数据集,利用TimeGAN数据增强方法进行数据扩充,然后将原数据训练的数据增强网络生成的3000个合成数据与原3000个数据样本进行可视化对比,结果如图3所示。灰点和黑点分别代表生成模型训练LTE-M故障数据样本之后生成的二维空间映射数据集和真实数据集。在图3中TimeGAN生成的数据与原始数据更好地对齐,偏移数据点更少。

4.2.2 预测内容

本文将与TimeGAN原理类似的RCGAN和C-RNN-GAN两种模型作为对比对象。使用TimeGAN、RCGAN和C-RNN-GAN模型训练LTE-M故障数据样本,分别生成四组生成数据,再将生成数据输入LSTM预测模型,计算三组预测值的MAPE、 、MAE值,如表3所示。可见RCGAN和C-RNN-GAN预测效果均不佳,TimeGAN模型预测效果较好。TimeGAN模型在轨道交通LTE-M网管故障数据时间序列潜在信息的利用上表现出更高的效率。实验还验证了该模型在故障预测问题上的精度更高。

图3网络故障数据集生成数据与原始数据t-SNE可视化对比图表3不同模型预测分数

5结论

本文对轨道交通LTE-M网络故障预测问题进行建模,针对LTE-M故障预测数据集样本不均衡和数据量较小等问题,提出TimeGAN时间序列生成模型,用于LTE-M网络故障数据预测,主要特点如下:

1)将告警日志数据和网络日常运行数据划分为故障数据的动静态特征,并作为TimeGAN模型的条件监督项,融合了自回归模型有监督训练与对抗学习无监督训练。

2)TimeGAN提出设计两个自编码器网络分别对轨道交通LTE-M动静态特征数据进行特征提取,提高特征提取的准确性,避免动静态特征干扰,使得合成数据与原始数据更加接近,真实性更高,优于其他数据增强网络。

将收集整理的地铁16个月的故障数据集输入改进模型,得到质量更高的合成数据,再将合成数据输入LSTM网络预测模型,实验结果表明,TimeGAN模型生成的数据在用于故障预测训练时,能够产生更好的拟合效果,有效提升轨道交通LTE-M网络故障预测的精度。

参考文献:

[1]陈东洋,毛力.融合增量学习与Transformer模型的股价预测研究[J].计算机科学与探索,2024,18(7):1889-1899.

[2]李娜,羊钊,王业萍,等.融合时序注意力的CNN-BiGRU四轴无人机轨迹预测方法[J/OL].武汉理工大学学报:交通科学与工程版,2025:1-9[2025-03-13].http://kns.cnki.net/kcms/detail/42.1824.U.20240409.1221.046.html.

[3]谢博才,宫殿君.基于机器学习的道岔故障诊断与预测研究综述[J].铁路通信信号工程技术,2021,18(8):93-99.

[4]施清译,汪伟,安斯光,等.基于时序生成对抗网络和注意力机制的电器数据生成方法[J].现代电子技术,2024,47(11):161-167.

[5]李兰,张洁,刘杰,等.基于GAN的社会和场景感知行人轨迹预测[J].计算机应用与软件,2024,41(6):72-78.

[6] ZHANGGQ,GUOJF.ANovel Ensemble Method forResidential ElectricityDemand ForecastingBased onANovelSample Simulation Strategy[J].Energy,2020:207:118265.

[7]CHENZS,HOUKR,ZHUMY,etal.AVirtualSampleGeneration ApproachBased onaModified ConditionalGAN and Centroidal Voronoi Tessellation Sampling to Cope WithSmall Sample Size Problems:Applicationto softSensing forChemical Process[J].Applied SoftComputing,2021,101:

[8]丁琳琳,胡永亮,李昱达,等.基于条件对抗增强的Transformer煤矿微震定位方法[J].计算机与数字工程,2024,52(1):1-8+17.

[9]YOONJ,JARRETTD,SCHAARMVD.Time-Series Generative AdversarialNetworks[EB/OL].[2024-09-28].https:// papers.nips.cc/paper/8789-time-series-generative-adversarialnetworks.pdf.

[10]ZHANGYF,ZHOUZH,LIUJW.DataAugmentation for ImprovingHeatingLoad Prediction ofHeatingSubstationBasedon TimeGAN[J].Energy,2022,260:1-12.

[11]王渝红,何其多,郑宗生,等.基于条件生成对抗网络与迁移学习的暂态电压稳定超前判别[J].电力自动化设备,2025,45(2):159-166.

[12]周琳茹,彭鹏菲.基于注意力-生成对抗网络的任务分析方法研究[J].计算机科学,2024,51(3):63-71.

[13]HARFORD S,KARIMF,DARABIH.Generating AdversarialSamplesonMultivariateTimeSeriesusingVariational Autoencoders[J].IEEE/CAA JournalofAutomatica Sinica, 2021,8(9):1523-1538.

[14]谭建所,吴兴华,徐文光,等.基于tSNE-LSTM算法的工业预测模型[J].现代电子技术,2024,47(12):81-85.

作者简介:余凤琴(1999—),女,汉族,安徽安庆人,硕士研究生在读,研究方向:轨交智能控制与监测。

标签:  数据 

免责声明

本文来自网络,不代表本站立场。如有不愿意被转载的情况,请联系我们。

iidomino cuppor