基于卷积神经网络和双向长短期记忆网络的气温预测模型

known 发布于 2025-08-25 阅读(496)

摘" 要:气温与环境要素之间存在非线性关系,针对传统的预测方法难以捕捉数据的内在特征和时间相关性问题,提出一种基于卷积神经网络与双向长短期记忆网络相结合的气温预测模型。基于宿迁四个国家气象观测站的逐小时观测数据,首先通过一维卷积神经网络提取气象要素数据的空间特征,然后将这些特征引入双向长短期记忆网络中来全面学习并掌握气象要素的上下文信息,进而对气温进行有效预测。实验结果表明,与其他的预测方法相比,所提模型在空间特征提取和时序特征学习方面表现卓越,且其在气温预测的精度上有显著的优势。

关键词:深度学习;卷积神经网络;双向长短期记忆网络;气温预测;对比分析

中图分类号:TP18;P457.3 文献标识码:A 文章编号:2096-4706(2024)21-0035-07

Temperature Prediction Model Based on Convolutional Neural Networks and Bidirectional Long Short-Term Memory

YE Jian, TANG Huan, YIN Hua, GAO Zhenxiang

(Suqian Meteorological Bureau, Suqian" 223800, China)

Abstract: There is a nonlinear relationship between temperature and environmental factors. Aiming at the problems that traditional prediction methods are difficult to capture the inherent characteristics and temporal correlation of the data, a temperature prediction model based on a combination of Convolutional Neural Networks and Bidirectional Long Short-Term Memory is proposed. Based on hourly observation data from four national meteorological observation stations in Suqian, firstly, the spatial features of meteorological element data are extracted through the One-dimensional Convolutional Neural Networks, followed by these features are introduced into the Bidirectional Long Short-Term Memory to comprehensively learn and master the contextual information of meteorological elements, so as to effectively predict the temperature. The experimental results show that compared with other prediction methods, this proposed model performs excellently in spatial feature extraction and temporal feature learning, and it has significant advantages in the accuracy of temperature prediction.

Keywords: Deep Learning; Convolutional Neural Networks; Bidirectional Long Short-Term Memory; temperature prediction; comparative analysis

0" 引" 言

气温状况是决定天气变化的重要因素之一,它既是天气预报的重要项目,也是天气预报的重要依据,同时也是影响环境变化的关键要素。因此,提高气温预测的准确率,对于社会发展、人类生活等具有重要意义[1-2]。

目前,气象部门通常会根据数值天气预报(Number Weather Prediction, NWP)模型来预测天气结果[3],但NWP模型会面临由复杂地形组成的区域的温度时空变化带来的挑战[4]。随着气象数据观测技术的现代化,气象数据呈现爆炸性增长,传统的气象温度预测技术的性能面临着新的挑战,但给基于海量数据的机器学习方法带来了新的机遇。由于深度学习中的循环神经网络(Recurrent Neural Network, RNN)及其变形结构长短期记忆网络(Long Short-Term Memory, LSTM)和门控循环单元(Gated Recurrent Unit, GRU),在处理具有时序特性的数据时具有非常好的效果,如今已广泛应用于众多领域[5-11]。考虑到气象数据也具有时间特性,陶晔等人[12]通过随机森林(Random Forest, RF)对含有多要素的气象时间序列数据进行特征选择,然后利用LSTM进行气温预测,取得了不错的预测效果;杨耘等人[13]采用LSTM学习气象数据的时间相关性,然后引入反向神经网络(Back Propagation Neural Network, BP)对气象要素进行优化,得到了较高的预测精度。同样,金郁淇等人[14]和花凡等人[15]均利用LSTM对气温时序数据进行有效建模和预测;杨迎新等人[16]利用主成分分析(PCA)算法对气象要素进行降维处理,并用改进的粒子群算法(PSO)优化GRU后对气温进行有效预测;赵琳娜等人[17]用全连接神经网络方法对日最高气温进行了有效订正。这些机器学习方法已经取得了不错的预测效果,但没有较好的学习到气象数据的时序特征,空间特征学习上不够好,时序数据的上下文信息学习不够全面,气温预测的准确度还有待提高。

针对以上问题,为了更好地利用气象数据的时空特征,充分发挥卷积神经网络(Convolutional Neural Networks, CNN)对气象数据空间特征的自动筛选和提取,以及长短期记忆网络对气象序列数据预测的长时间依赖问题的优势,本研究基于宿迁四个国家气象观测站的逐小时观测数据,提出了一种结合一维卷积神经网络(One Dimensional Convolutional Neural Networks, 1D-CNN)和双向长短期记忆网络(Bi-directional Long Short-Term Memory, BiLSTM)[18]的气温预测模型,简称为1D-CNN_BiLSTM。首先使用1D-CNN来学习气象数据中各个影响要素的特征,提取局部空间特征,获得包含空间信息的特征向量,然后将空间特征引入BiLSTM模型学习气象数据的时间相关性,并提取正反两个方向的时间特征,进而对气温进行有效预测,并与其他气温预测模型作对比分析。

1" 数据与方法

1.1" 研究区域与数据来源

研究区域是江苏省宿迁市,该市建于1996年,位于江苏省北部,属于暖温带亚湿润季风气候,四季分明。全市总面积为8 555 km2,陆地面积占77.6%,年平均气温是14.2 ℃,年平均降水量为910 mm,年平均日照总时间为2 291小时。该区域的4个国家级气象观测站分布由图1中圆点表示,区站名(站号名)分别为宿迁(58131)、泗阳(58132)、沭阳(58038)和泗洪(58135)。

1.2" 数据处理

为了保证该深度学习模型能够获得更全面、更准确、更稳定的数据输入,从而在气温预测方面达到更高的准确性和可靠性,本文将2004—2020年宿迁四个国家气象观测站的逐小时观测数据合在一起作为研究对象。先对该实况数据做完整性检查,直接删除要素都缺失的时间点数据,用邻近值对缺失部分要素的时间点数据进行补全,最终共得到581 393个样本数据。以宿迁站点(区站号为58131)为例,图2为2004—2020年的气温变化情况,从图中可以看出,该区域的气温变化具有明显的周期特性。

由表1可知,气象各要素往往具有不同的量纲及量纲单位,这样会对气温预测有很大的影响。为了消除各个要素之间的量纲影响,对气象各要素数据分别进行归一化处理:

(1)

其中,min(x)和max(x)分别为气象各要素中样本数据的最小值与最大值,为归一化结果。

由于当前时刻的气温会受到以往各要素的影响,因此可以将该时间序列数据转化为有监督数据。将气象数据按时间序列进行排序,输入数据是前T小时内的各要素的观测值,期望输出是第T+1时刻的气温值。

1.3" 研究方法

气温预测的目标是利用气象自动观测站搜集的历史数据对未来某个时间的气温进行预测,本研究提出的预测模型如图3所示。

1.3.1" 一维卷积神经网络

卷积神经网已经成为众多科学领域的研究重点,本研究采用的一维卷积神经网络(1D-CNN)如图3中所示,主要通过卷积层(含激活层)和池化层构成对气象数据进行局部趋势学习以提取气象数据的局部空间特征。若1D-CNN模型的输入数据集为x = [x1,x2,…,xN],N为样本个数,则:

(2)

(3)

(4)

式(2)为卷积操作,其核心是卷积核,作用是对不同维度的原始数据进行稀疏连接,提取特征。本研究使用一维卷积层(Conv1D)对气象数据进行端到端的特征提取,并减少参数量。l为网络层数,j为特征图数,为第l层的第i个数据,为卷积层的输入,和分别是第l层的卷积核矩阵和偏置项, 为卷积层输出。

激活层是对数据进行非线性变换,提高模型的拟合性能。再通过激活函数之前,会进行批量标准化(Batch Normalization, BN),尽可能使该层网络的输入具有相同分布,避免梯度消失,加快训练速度。式(3)中的σ为激活函数,为输入,为输出,σ一般用ReLU函数:

(5)

由式(5)可知,当数据大于0时,输出等于输入;当数据小于0时,神经元的输出也为0,增加了网络的稀疏性,减少了参数的相互依赖关系,缓解过拟合问题的发生。

池化层中是采用最大池化(Max Pooling),即对前面输出过来的数据做一个取最大值的处理。经过池化后,可提取到更为抽象的特征信息,并减少参数量。

1.3.2" 双向长短期记忆网络

LSTM是由RNN算法改进而来,RNN可以处理一定时间的短期依赖,但无法处理长期依赖问题,因为会出现梯度消失或梯度爆炸的问题。LSTM在RNN结构的基础上,引入了t时刻的记忆状态ct和三个门控单元(输入门it、遗忘门ft和输出门ot)来实现对信息传递的控制,可以有效处理RNN存在的问题,如图4所示。

遗忘门ft。它是决定从单元状态中选择性的舍弃某些不重要的信息。当输入信息通过LSTM时,遗忘门会有条件地决定上一时刻状态有多少保留到当前时刻,即式(6):

(6)

其中,xt为当前t时刻的输入,ht-1为上一时刻的输出,bf为偏置项,σ为Sigmoid激活函数,即σ(x)=1/(1+e-x)。

输入门it。通过遗忘门后,输入门会条件性地从当前的输入中选择有用数据加入单元状态中,即如公式:

(7)

(8)

(9)

其中,为当前状态的候选值,将会被加入状态中,ct和ct-1分别为当前时刻和上一时刻的单元状态,Wt与Wc分别为输入门和更新状态后的权重,bi与bc为对应的偏置项。

输出门ot。状态经过更新之后,再通过Sigmoid函数来决定哪部分信息将被输出,即:

(10)

(11)

虽然LSTM引入了记忆单元,具有长期记忆能力,但是传统的LSTM只能单向学习,忽略了上下文信息。双向长短期记忆网络(BiLSTM)是LSTM的改进算法,具有前向LSTM层和后向LSTM层,分别从时序序列的始端和末端开始运行,充分考虑数据的过去和未来的上下文信息。BiLSTM的网络结构如图5所示,计算公式如下:

(12)

(13)

(14)

式中和分别为t时刻的前向隐层状态与后向隐层状态,Ht为最终输出。

由图2可知,气温数据在时间上是一维时序周期序列,当前的气温会受到前时刻天气的影响,同时也会影响到之后的气温状况。因此,将1D-CNN提取的空间特征向量输入BiLSTM中学习气温数据的时间周期特征,充分考虑输入的上下文信息进行预测会有更好的效果,故本研究提出1D-CNN_BiLSTM模型来预测气温,如图3所示。

2" 实验及结果分析

2.1" 实验设置

为了验证所提模型的有效性,本研究设置2004—2020年各个站点的数据T=24,即前24小时的气象数据作为输入,第25小时的气温值作为目标输出,四个站点合到一起共有581 369组样本,并按8:1:1比例将其随机分成训练集、验证集和测试集。

实验过程中,将预处理后的训练集先输入1D-CNN中,提取气象要素的空间特征,接着将空间特征输入BiLSTM中,学习气象数据的时序特征,最后通过全连接进行气温预测。训练过程中,通过人工调参试验最优参数,并用验证集对模型进行有效验证,最终确定最优模型参数为:在1D-CNN的空间特征提取阶段,输入数据通过具有32个滤波器、卷积核大小为4的一维卷积,采用“same”填充方式和ReLU激活函数,并使用最大池化(大小为2);在BiLSTM的时序特征处理阶段,通过具有32个节点的BiLSTM,并在最后的全连接层之前,经过50%的Dropout层来防止过拟合;在网络的训练过程中,设置批量大小为256个样本,训练周期为500,并使用学习率为1×10-4的Adam算法进行学习优化。保存训练过程中的最优模型,并通过测试集进行测试与评估。

2.2" 评估指标

为评估所提气温预测模型的性能,选取均方根误差(Root Mean Square Error, RMSE)和平均绝对误差(Mean Absolute Error, MAE)作为评价指标,计算公式如下:

(15)

(16)

其中,N为样本个数,和yi分别为气温的预测值和真实值。当RMSE和MAE的值越小时,表明气温预测值与真实值之间的误差越小,模型的预测效果越好。

2.3" 结果与分析

2.3.1" 基于1D-CNN特征提取的有效性

本研究复现了陶晔等人[12]中的RF_LSTM模型和杨耘等人[13]中的LSTM_BP模型,模型参数也都按照其论文中的设置,并在本研究的数据集上进行对比实验,结果如表2所示。

对于RF_LSTM[12]方法,先通过随机森林筛选出与气温相关性更高的4个要素,如图6所示,分别为湿球温度、水汽压、相对湿度和露点温度,然后再通过LSTM进行预测,最终实验结果为:RMSE是1.13,MAE是0.82。对于LSTM_BP[13]方法,在此数据集上得出的结果为:RMSE是1.05,MAE是0.76。

为了验证基于一维卷积神经网络对气象数据特征提取的有效性,本文将1D-CNN分别加在RF_LSTM和LSTM_BP中的LSTM之前进行试验,简记为RF_1D-CNN_LSTM和1D-CNN_LSTM_BP。由表2中的实验结果可知,与RF_LSTM相比,RF_1D-CNN_LSTM模型的RMSE降低了0.37,MAE降低了0.28;与LSTM_BP相比,1D-CNN_LSTM_BP模型的RMSE降低了0.35,MAE降低了0.28。那么气温模型预测效果的排序为RF_1D-CNN_LSTM>RF_LSTM,1D-CNN_LSTM_BP>LSTM_BP,且1D-CNN_LSTM_BP>RF_1D-CNN_LSTM>LSTM_BP>RF_LSTM,这表明基于1D-CNN提取的空间特征可以明显改善气温的预测效果。

2.3.2" 基于BiLSTM时间特征学习的有效性

杨耘等人[13]为已经证明了LSTM和BP的组合(LSTM_BP)预测效果要优于LSTM,因此,为了验证双向长短期记忆网络学习气象数据的时间特征的有效性,本研究直接将BiLSTM预测效果和LSTM_BP进行比较。由表3中的实验结果可知,与LSTM_BP相比,BiLSTM模型的RMSE降低了0.37,MAE降低了0.3。这表明气温预测模型的效果排序是BiLSTM>LSTM_BP>LSTM,可以看出,通过BiLSTM学习气象数据的上下文信息有利于提高气温预测的准确性。

2.3.3" 各算法的性能比较

表4列出了各机器学习模型的气温预测准确性比较,由上述内容可知,1D-CNN对气象数据的空间特征提取具有很好的效果,且BiLSTM对气象数据的时间特征提取也具有好的效果。因此,为了充分利用气象数据的空间特征与时序特性,本研究将1D-CNN与BiLSTM结合在一起为1D-CNN_BiLSTM模型进行气温预测,由表4可知,使用1D-CNN_BiLSTM模型的预测误差最低,此时RMSE为0.64,MAE为0.43,与算法RF_LSTM[12]的预测结果相比,1D-CNN_BiLSTM的RMSE降低了0.49,MAE降低了0.39;与算法LSTM_BP[13]的预测结果相比,1D-CNN_BiLSTM的RMSE降低了0.41,MAE降低了0.33,达到了非常好的预测效果。这表明,充分利用气象要素的空间与时间特征更有助于提高气温预测的准确性。

图7是各个模型的气温预测效果对比图,由于数据量较大,只显示了连续3天的预测值和真实值的数据,由图可知,1D-CNN_LSTM_BP模型的预测结果与真实值更接近。

3" 结" 论

为实现对气温的准确预测,本研究利用观测站点气象数据,将一维卷积神经网络(1D-CNN)提取气象要素的空间特征的优势和双向长短期记忆网络(BiLSTM)提取气象要素的时间相关性的优势相结合,构建了一种新的气温预测模型1D-CNN_BiLSTM,并与其他机器学习气温预测模型进行对比,主要得到以下结论:1)一维卷积神经网络能有效的提取气象数据的空间特征,可以充分利用气象各要素的特征联系。2)双向长短期记忆网络具有很好的时间特征提取能力,可以充分学习到序列数据的上下文信息,更加适合于时序气象数据的预测。3)与其他机器学习模型相比,本文提出的1D-CNN_BiLSTM气温预测模型达到了更好的预测效果,实验结果是:RMSE为0.64,MAE为0.43。

值得讨论的是,机器学习已经广泛应用于各大领域,它的各类算法可以处理众多问题,以后将会尝试以下机器学习算法思路对网络模型做进一步改进:1)本文只是使用了简单的CNN结构做特征提取,证实了用CNN做气象数据的空间特征提取是有效果的,以后可以尝试与搭建更加高效的CNN结构或机器学习模型。2)可以先用完备总体经验模态分解(Complete Ensemble Empirical Mode Decomposition, CEEMD)算法将气象数据集进行模态分解,再用小波软阈值去噪将分解得到的多个模态分量和残余分量进行降噪处理,最后结合双向长短期记忆网络对气温数据进行分析预测。3)可以通过迁移学习方法来用于不同地区的气温预测,这样会加快并优化基于深度学习建立气温预测模型的学习效率,且能够解决由于不同区域中气温数据量的不足而导致的深度学习模型不能充分学习到气象各个要素之间特征的问题。

参考文献:

[1] ENGDAW,MASTAWESHA MISGANAW,et al. Attribution of Observed Changes in Extreme Temperatures to Anthropogenic Forcing Using CMIP6 Models [J].Weather and Climate Extremes,2023,39:100548.

[2] 吴兴洋,陈怡璇,支亚京,等.1951—2020年贵州均一化气温序列构建及初步分析 [J].沙漠与绿洲气象,2023,17(5):152-158.

[3] PATHAK J,SHASHANK S,HARRINGTON P,et al. FourCastNet: A Global Data-driven High-resolution Weather Model Using Adaptive Fourier Neural Opera-tors [J/OL].arXiv:2202.11214 [physics.ao-ph].[2024-01-18].https://arxiv.org/abs/2202.11214?context=physics.ao-ph.

[4] SEKULA P,BOKWA A,BOCHENEK B,et al. Prediction of Air Temperature in the Polish Western Carpathian Mountains with the ALADIN-HIRLAM Numerical Weath-er Prediction System [J].Atmosphere,2019,10(4):186.

[5] 徐嘉远,邹磊,夏军,等.TVGM-LSTM耦合模型及其径流模拟效果分析 [J].水资源保护,2023,39(6):104-110.

[6] BIKASH S,SHAYAK C,Somenath M. Investigating the Relationship Between Earthquake Occurrences and Climate Change Using RNN-based Deep Learning Ap-proach [J].Arabian Journal of Geosciences,2021,15(1):31.

[7] SENGAL G,ALI M. Control of a Three-Phase Grid-Connected Voltage-Sourced Converter Using Long Short-Term Memory Net-works [J].Energies,2022,16(1):453-453.

[8] LEE H J,HONG K J. Comparative Performance Analysis of Tech-ni ques for Predicting Concatenated Normal and Abnormal Vibra tions [J].Electronics,2023,12(23):4778.

[9] ZHANG M,XIE C,TIAN B,et al. Application of Gated Recurrent Unit Neu-ral Network for Flood Extraction from Synthetic Aperture Radar Time Se-ries [J].Water,2023,15(21):3779.

[10] BALDUÍNO C M,MATEUS M, JOSÉ T F,et al. Comparing LSTM and GRU Mod-els to Predict the Condition of a Pulp Paper Press [J].Energies,2021,14(21):1-21.

[11] AZYUS F A,WIJAYA K S, NAVED M. Determining RUL Predictive Mainte-nance on Aircraft Engines Using GRU [J].Journal of Mechanical, Civil and Indus-trial Engineering,2022,3(3):79-84.

[12] 陶晔,杜景林.基于随机森林的长短期记忆网络气温预测 [J].计算机工程与设计,2019,40(3):737-743.

[13] 杨耘,王彬泽,刘艳,等.基于时空优化LSTM深度学习网络的气温预测 [J].徐州工程学院学报:自然科学版,2020,35(2):44-49.

[14] 金郁淇,李知何.基于LSTM神经网络的逐时气温预报 [J].现代信息科技,2023,7(9):26-29.

[15] 花凡,李莉,蔡鑫楠.长短期记忆网络在气温预测中的应用[J].智能计算机与应用,2022,12(11):92-95+102

[16] 杨迎新,杜景林,武艳.基于PCA和改进PSO-GRU神经网络的气温预测 [J].现代电子技术,2022,45(1):89-94.

[17] 赵琳娜,卢姝,齐丹,等.基于全连接神经网络方法的日最高气温预报 [J].应用气象学报,2022,33(3):257-269.

[18] ZHANG M Y,HAN Y,YANG P,et al. Landslide Displacement Prediction Based on Optimized Empirical Mode Decomposition and Deep Bidirectional Long Short-term Memory Network [J].Journal of Mountain Science,2023,20(3):637-656.

作者简介:叶剑(1980—),男,汉族,江苏宿迁人,工程师,本科,主要研究方向:机器学习、农业气象学;通信作者:唐欢(1991—),男,汉族,江苏宿迁人,工程师,硕士,主要研究方向:机器学习、应用气象学。

选取了宿迁市四个国家气象观测站从2004年1月1日00:00到2020年7月31日23:00之间的逐小时气象实况数据,包括气温、气压、湿球温度、水汽压、相对湿度、风速、风向度数、日照时数、露点温度和降水量10个要素,具体数据(部分)如表1所示。

基金项目:江苏省气象局青年基金项目(KQ202420);“宿迁英才”群英计划培养资助项目、宿迁市级指导性科技计划项目共同资助。

标签:  气温 

免责声明

本文来自网络,不代表本站立场。如有不愿意被转载的情况,请联系我们。

iidomino cuppor