摘" 要:文章基于2023年兴安盟地区国家级气象台站的逐日气象观测资料,与中央气象台下发的国家级智能网格预报产品进行对比检验,并利用机器学习方法探索归纳订正方法,得出结论。结合CMA-GFS数值预报模式结果以及各类地面观测实况,通过集成学习方法建立了温度产品订正模型。该模型在最高气温和最低气温的订正上均表现出显著效果,订正后准确率显著提高,误差明显降低。该订正方法具有较高的研究价值和实际应用意义。
关键词:智能网格;预报检验;数值预报修订;机器学习
中图分类号:TP181;P405" 文献标识码:A" 文章编号:2096-4706(2025)04-0080-07
Research on the Temperature Element Correction Method for Intelligent Grid in Xingan League Area Based on Machine Learning
LI Xuexue
(Meteorological Bureau of Keyouqian Banner, Xingan League" 137400, China)
Abstract: Based on the daily meteorological observation data of the national-level meteorological stations in Xingan League area in 2023, this paper conducts a comparative verification with the national-level intelligent grid forecast products issued by the Central Meteorological Observatory, and explores and summarizes the correction method by using Machine Learning method, then comes to conclusions. Combining the results of the CMA-GFS numerical forecast model and various ground observation facts, a temperature product correction model is established by an integrated learning method. The model can achieve excellent correction effects on both the highest and lowest temperatures, and the accuracy rate increases and the error is reduced significantly after correction. This correction method has good research value and practical application significance.
Keywords: intelligent grid; forecast verification; numerical forecast correction; Machine Learning
0" 引" 言
当前,随着社会经济发展和公众对生活质量要求的日益提升,公众对天气预报的时间及空间分辨率提出了更为严格和细致的要求。为响应这一需求,国内外气象领域均在积极研发和推广无缝隙网格化预报业务,力求提供更加精准、全面的气象服务信息[1]。在此背景下,中国气象预报服务领域也迎来了重要的变革,智能网格预报业务正式上线启用。这一业务的推出,标志着中国气象预报技术已经实现了从传统站点向格点化预报的跨越性转变,它不仅提升了公众的气象服务水平,也为防灾减灾、农业生产、交通运输等各行各业提供了更加有力的气象保障[2]。
当前数值天气预报主要依赖于高性能数值计算模式得以实现[3],但其计算结果难免存在误差[4]。为提高天气预报结果的精准度,需对其结果进行订正[5]。国内外学者主要利用集合预报、统计与机器学习等订正方法,这些方法各自具有独特的优势和局限性[6]。
在数值模式预报领域,许多学者利用机器学习、深度学习等算法改善气象预报结论的精准性[7],利用大量气象实况观测数据构建模型,对气象信息进行预测或订正[7]。
1" 研究内容与方法
1.1" 研究内容
文章基于2023年兴安盟地区阿尔山等8个气象台站的每日气象观测实况,与国家级智能网格温度预报产品(SCMOC)进行对比分析检验。结合全球中期数值预报系统(GRAPES-GFS)数值预报模式的温度预测结果以及各类地面资料实况,利用机器学习方法构建了订正模型,并取得了良好的订正效果。
1.2" 检验方法
对最高、最低气温产品的预报结果主要开展平均误差(TME)、平均绝对误差(TMAE)、均方根误差(TRMSE)和≤2 ℃的预报准确率(Tk)检验[8],计算式如下:
(1)
(2)
(3)
(4)
其中,Fi为某站第i天预报气温,Oi为该点第i天实况气温,N为预报总天数,k为2,Nk为绝对误差≤2 ℃时预报正确的天数[9]。
气温资料的检验内容主要包括逐月对单站及区域最低(高)气温准确率及平均绝对误差的分析[10]。
1.3" 模型构建方法
气温数据订正模型的构建流程需经过数据预处理、特征工程、模型对比、模型训练,最终完成测试。在模型选择上,需要从多角度进行评分,当不同模型类型的指标评分各有千秋时,可采用建立集成模型的方式。选择后的模型通过训练,可对未知的测试数据作出正向或负向订正的判断,并对每一轮的迭代重新进行打分。本研究将模型学习率设置为0.001,迭代次数为10。
本次数据集为2023年的逐日数据,属于中期数据,因此过大的迭代次数会导致模型的过拟合。该参数能够在避免过拟合的情况下寻找最优解。其余参数通过网格搜索的方法来寻找最优解,减少手动调参的误差。通过训练确定模型参数后可测试部署模型,若无过拟合和欠拟合,且模型能够提升预报准确率,则说明该模型具有订正效果。
2" 气温预报效果检验
气温检验是对兴安盟地区20时至次日20时段的逐24小时、48小时、72小时的最低、最高气温的SCMOC气温产品绝对误差≤2 ℃的预报准确率、MAE的检验。基于兴安盟气温季节差异较大的特点,本文进行了气温逐月检验,同时基于兴安盟地广人稀、地貌复杂的特点,分区域、分站点对SCMOC气温产品进行检验分析。
2.1" 正确率检验
2.1.1" 年正确率检验
经计算,2023年SCMOC气温产品对兴安盟地区表现出较高的预报性能,准确率随着预报时效的延长呈逐渐下降趋势:最低气温24小时、48小时、72小时的准确率分别为74.91%、71.23%、68.29%;最高气温24小时、48小时、72小时的准确率分别为76.38%、68.67%、63.41%。该数值显著高于兴安盟地区中短期天气预报员的平均水平。
2.1.2" 逐站正确率检验
由SCMOC气温预报产品各站24小时、48小时、72小时最低(高)气温年平均预报准确率检验分析(如图1),SCMOC预报准确率中等水平,但稳定性较高,预报质量随着预报时效的延长未见显著下降;多数站点各时效最低气温预报准确率高于最高气温准确率;最低气温各站点间差异较大,西北部山区以及南部沙地地区总体预报准确率略高于其他地区。一般情况下,山地及沙地的昼夜温差较大,其最低气温准确率分布也体现了SCMOC在复杂地形下对最低气温预报性高的特点。最高气温准确率分布总体上南部地区略优于其他地区。
2.2" 误差检验
2.2.1" 年误差检验
经计算,2023年 SCMOC温度产品对兴安盟地区具有较高的预报性能。随着预报时效的延长,平均绝对误差(MAE)略有上升。最低气温24小时、48小时、72小时的平均绝对误差分别为1.60、1.44、1.55 ℃;最高气温24小时、48小时、72小时的平均绝对误差分别为1.67、1.67、1.86 ℃。这些数值体现了SCMOC温度产品较高的预报性能。
从2023误差分析看,在正负误差平均值上没有明显规律,但24小时到72小时预报最高(低)气温误差为负的比例均大于为正的比例,说明模式对于兴安盟地区温度预报值比实际偏高,因此对气温订正的时候,倾向于在基础值上减小数值,如见表1、表2所示。
2.2.2" 各站平均绝对误差检验
各站最低(高)气温年平均绝对误差随预报时效延长呈现小幅上升趋势,如图2所示,但大部分地区72小时预报时效的平均绝对误差仍小于2 ℃,这体现了SCMOC误差小、稳定性高的特点。大部分站点各时效最低气温的平均绝对误差略低于最高气温的平均绝对误差。各站之间的差异显著,最低气温的平均绝对误差呈现出西北和东南方向小、中部大的特点,这与最低气温预报准确率的分布相一致。最高气温误差在各站之间的差异不大,但总体上西北部山区的误差略小于其他地区。
3" 基于集成学习模型的气温订正
3.1" 气温数据预处理
气温数据订正包括最高气温和最低气温。在气温数据订正中,加入了CMA-GFS模式数据,对缺失值进行剔除处理,同时保留异常值作为特征输入模型。
3.2" 气温预报因子筛选
选取日最高气温、日最低气温、智能网格最高气温、智能网格最低气温、GFS预报最高气温、GFS预报最低气温、平均地面温度、20~20时降水量、平均2分钟风速、最大风速、极大风速、日照时数等地面气象资料进行皮尔逊相关性分析。由于气温数据订正属于回归问题,对特征值的要求更高,因此需要去除相关性较弱的因子。设置相关性阈值为0.7,最终选取CMA-GFS模式气温数据以及日地面平均温度作为建模因子。
3.3" 集成学习模型构建
3.3.1" 模型选择
在模型选择方面,对全体数据进行抽样,以提高模型的普遍适应性。遵循控制变量的原则,对多种模型进行初步训练,并得出评估参数,如表3所示。从16种模型中筛选出三种最佳模型,分别对三个时效的气温数据进行训练。这三种模型分别是极端随机树回归模型(Extremely Randomized Trees)、随机森林回归模型(Random Forest Regressor)以及梯度提升回归模型(Gradient Boosting Regressor)。
3.3.2" 集成学习融合模型
将上述三种模型进行融合,形成集成学习模型。在数据训练时,分别对比三种模型的性能,选择最优解作为初步预测结果。集成学习融合模型将每个基本模型的预测结果作为特征,构建一个新的数据集,通常称为元数据集。元数据集的特征是每个基本模型的预测结果,而目标变量仍然是原始训练数据集中的目标变量。
使用元数据集对一个额外的模型(称为元模型)进行训练。元模型的任务是利用基本模型的预测结果来学习如何进行最终的预测。接下来进入第二层训练过程,使用训练好的元模型对测试数据集进行预测。元模型以基本模型的预测结果为输入,输出最终的集成预测结果。之后,使用堆叠模型的预测结果对测试数据集进行性能评估,通常采用均方误差(MSE)等评估指标。堆叠是一种强大的集成学习技术,能够在多个模型之间找到最佳组合方式,从而获得更准确的预测结果。然而,它也需要更多的计算资源和数据来训练和评估多个模型,因此在实际应用中需要权衡计算成本和性能提升。
3.3.3" 训练与测试
在训练过程中,采用K-折交叉验证(K-Fold Cross-Validation)方法,并通过随机搜索迭代选择最佳超参数,以均方根误差(RMSE)作为主要筛选指标。具体结果如表4所示。
对24小时最低气温回归分析可知,模型通过订正智能网格数据得到的新预报数据与真实数据相当接近。同时能够观察发现,融合模型的误差较单个模型也得到了大幅度降低,这证明了集成学习模型有着更高的数据订正能力。因此,可将该模型部署于整体数据进行测试,分别对24小时、48小时和72小时预报时效的站点数据进行最高气温和最低气温的订正。
3.4" 气温订正精度评价
以24小时时效的最高气温为例,由图3模型输出结果可知,经过订正后的气温数值与真实数据更加接近。同时,该模型能够剔除一些误差较大的异常点,证明了该集成学习模型具有较高的数据订正能力。
对8个站点的智能网格气温进行订正,并计算各站点、各时次的准确率、TMAE和TRMSE的变化情况。结果显示,尽管各站点之间存在一定的差异,但该集成学习模型在最高气温和最低气温的订正上均表现出显著的效果。订正后,各站点的准确率普遍提高,误差显著降低,如表5、表6所示。
对模型输出的8个站点的最低气温订正序列与实测资料进行对比检验,结论如下:随着预报时效的增加,订正效果略有下降,各站点间也存在一定差异。其中,突泉站在准确率提升方面表现最优,24小时最低气温的准确率同比提升了41.27%。在平均绝对误差的订正方面,各站点差异不大,均取得了良好的效果,平均绝对误差下降了0.72~1.13 ℃。
综合分析,模型对最高气温的订正也具有一定的效果。除突泉站外,其他站点的订正效果随着预报时效的增加而有所提升,各站点间也存在一定差异。其中,突泉站在准确率提升方面表现最优,24小时最高气温的准确率同比提升了35.83%。在平均绝对误差的订正方面,各站点差异不大,均取得了良好的效果。
4" 结" 论
综合检验分析和订正预报结果,可以得到以下结论:
1)SCMOC温度产品对兴安盟地区具有较高的预报性能和较强的稳定性,但随着预报时效的延长,准确率略有下降。
2)从2023年的误差分析来看,正负误差的平均值没有明显规律。然而,在24小时到72小时的预报中,最高气温和最低气温的误差为负的比例均大于为正的比例,这表明系统对兴安盟地区的温度预报值普遍偏高。
3)结合CMA-GFS数值预报模式结果以及各类地面观测实况,利用集成学习方法建立了温度产品订正模型。该模型在最高气温和最低气温的订正上均表现出显著效果。尽管各站点之间存在一定差异,但整体上准确率有所提高,误差显著降低。
参考文献:
[1] 韦青,代刊,林建,等.2016—2018年全国智能网格降水及温度预报检验评估 [J].气象,2020,46(10):1272-1285.
[2] 刘海燕,周雪莹,李显风,等.基于数据湖的智能网格气象预报业务产品服务模式初探——以江西省为例 [J].气象与减灾研究,2022,45(1):64-69.
[3] 贾晓红,魏巍,石岚.冬季路面最低温度统计预报方法对比研究 [J].内蒙古气象,2024(1):25-30.
[4] 杭月荷,孙鑫.支持向量机方法在内蒙古客观温度预报中的应用 [J].内蒙古气象,2020(3):16-19.
[5] 金荣花,代刊,赵瑞霞,等.我国无缝隙精细化网格天气预报技术进展与挑战 [J].气象,2019,5(4):445-457.
[6] 孙康慧,肖安,夏侯杰.基于LightGBM机器学习算法的江西气温短期预报模型研究 [J].高原气象,2024,43(6):1520-1535.
[7] 刘杰,刘高平,安晶晶,等.基于机器学习的模式温度预报订正方法 [J].沙漠与绿洲气象,2024,18(3):96-104.
[8] 朱玉祥,刘海文,万文龙,等.人工智能在飞机颠簸预报中的应用进展及未来趋势展望 [J].大气科学学报,2023,46(6):825-836.
[9] 武略,焦瑞莉,王毅,等.北京地区体感温度误差订正方法研究 [J].气象科学,2022,42(2):261-269.
[10] 曾晓青,曹勇,王玉,等.一种针对模式预报场的精细化插值新方法 [J].大气科学,2024,48(5):1879-1890.
作者简介:李雪雪(1993.02—)女,蒙古族,内蒙古突泉人,工程师,农学硕士,研究方向:天气预报与气象服务研究。
收稿日期:2025-01-15
基金项目:内蒙古自治区气象局科技创新项目(nmqxkjcx202412)