基于决策树集成法的飞行安全和飞行技术影响因素分析

known 发布于 2025-08-25 阅读(288)

摘" 要:飞行安全问题是民航业发展的基础和生命线。文章根据QAR监测到的飞行参数中的超限情况,分析影响飞行安全和飞行员飞行技术的主要因素,从而建立基于航空安全分析以及飞行员技术评估的实时自动化预警模型,应用于监测和预警风险,降低飞行事故的发生率。同时,采用灰色关联分析法提取与飞行安全相关的部分数据关键项,并对其重要程度进行分析,采用机器学习模型梯度提升树(GBDT)建立预测方程,从而评估飞行员的飞行技术。研究发现,无线电高度等因素对飞行安全的影响较大,TimeToGearSelUp等指标对飞行员飞行技术评估的重要性较大。

关键词:飞行安全;技术评估;灰色关联分析;随机森林;梯度提升树

中图分类号:TP311.1;V328 文献标识码:A 文章编号:2096-4706(2024)19-0053-05

Analysis of Influencing Factors of Flight Safety and Flight Technology Based on Decision Tree Integration

LI Xueying, LIU Chaohui, WANG Shuyuan, LEI Yuwei, ZHANG Chengyini

(School of Computer Science, Zhengzhou University of Aeronautics, Zhengzhou" 450046, China)

Abstract: Flight safety problem is the foundation and lifeline of the development of the civil aviation industry. According to the overrun situation in flight parameters monitored by QAR, this paper analyzes the main factors of influencing flight safety and pilot flight technology, so as to establish a real-time automatic early warning model based on aviation safety analysis and pilot technical assessment, which can be applied to monitor and warn of risks and reduce the incidence of flight accidents. At the same time, the Grey Correlation Analysis method is used to extract some key data items related to flight safety, and their important degree is analyzed. The prediction equation is established by using the Machine Learning model Gradient Boosting Decision Tree (GBDT) to assess the flight technology of pilots. It is found that factors such as radio altitude have a great impact on flight safety, and indicators such as TimeToGearSelUp are of great importance to the pilots flight technology assessment.

Keywords: flight safety; technical assessment; Grey Correlation Analysis; Random Forest; Gradient Boosting Decision Tree

0" 引" 言

2023年第十三届MathorCup高校数学建模挑战赛D题[1]是针对飞行安全问题,通过相关数据对航空安全风险进行分析以及飞行技术进行评估,文章选取了其中的两个题目。首先,对数据进行预处理,去伪存真,减少错误数据对研究分析带来的影响,并对数据质量开展可靠性分析,提取部分与飞行安全相关的数据关键项,对其重要程度进行分析;其次,飞机运行数据的研究一般分为两大类,一类是通过航线运行安全检查获取的飞行员的运行表现,另外一类是根据相关学者建议,提取部分与飞行安全相关的数据关键项,对其重要程度进行分析;最后,基于飞行参数开展飞行技术评估,通过建立数学模型,探讨一种基于飞行参数的飞行技术评估方法,分析飞行员的飞行技术。

1" 影响飞行安全的因素分析

1.1" 缺失值补充

首先对赛题给出的近2 000万关键参数的航段数据进行分析,GEAR SELECT DOWN(起落架)数据有大量缺失。据相关资料显示,起落架收放手柄有3个位置:UP(收上)、OFF(关断)、DN(放下)。飞机起飞后,手柄从DN位置于UP位,起落架收上并锁定后,3个红灯和3个绿灯都熄灭,然后把手柄置于OFF位,起落架收放系统内泄压,飞机落地前把手柄从OFF位置于DN位,起落架放下并锁定后,3个绿灯点亮,正常落地。起落架收放手柄通过连杆、钢索等与起落架选择活门连接,手柄的3个UP、OFF、DN位置直接对应选择活门的3个位置状态:UP、OFF、DOWN,液压通过选择活门到达前起和主起收放作动筒、锁作动筒、传压作动筒等,控制起落架的收放。而表格缺失值部分均在飞行过程中,由此可知,缺失值部分可填补为UP值。

1.2" IQR异常值识别与处理

利用IQR异常值识别[2]对数据进行异常值处理。IQR异常值识别又称为四分位间距,IQR通过将数据集分成4个相等的四分位数来测量变异性。将整个数据按升序排序,然后将其分成4个相等的四分位数,分别称为Q1、Q2、Q3和Q4,可以使用以下等式计算。当数据形成偏态分布时,IQR方法最适合。

第一个四分位数(Q1)将最小的25%的值与其他75%的较大值相除;Q1 = (n+1)/4排名值(第25个百分位);第三分位数(Q3)将最小的75%与最大的25%相除;Q3 = 3(n+1)/4排名值(第75个百分位);IQR(分位数范围) = Q3-Q1;下限 = Q1-1.5×IQR,上限 = Q3+1.5×IQR。

IQR步骤图如图1所示。

可以将异常值视为给定数据集中大于上限(Q3+1.5×IQR)且小于下限(Q1-1.5×IQR)的任何值。

1.3" 标准化处理

对IQR异常值识别处理后的数据,再利用归一化处理的方法进行标准化处理,以消除指标之间的量纲影响,解决数据指标之间的可比性问题。原始数据经过数据归一化处理后,各指标处于同一数量级,适合进行综合对比评价。对于标准化处理后的数据,即为去伪存真的有效数据,用以作为解题的支撑材料。

1.4" 可靠性分析

通过对2014年4月7日至4月10日的数据进行异常值比例分析,建立相关条形统计图。以2014年4月7日的数据参数为例,建立的异常值比例条形统计图如图2所示。

根据上述异常值比例的条形统计图,可以很直观地从异常值个数观察出各项数据的质量可靠性。以2014年4月7日的表格为例,分别对各项数据的异常比例占比最多的前6项进行相关描述,着陆G值0.4秒、姿态(第一次记录)、姿态(第二次记录)、坡度、下滑道偏差(L)、下滑道偏差(C)的数据质量最不可靠。

1.5" 灰色关联分析

题目中描述到“G值是飞机飞行过程中过载情况的直接反应,在着陆安全分析中,G值通常是描述落地瞬间安全性的重要指标。”由于着陆G值1秒记录10次,本文首先求出飞机在各个时刻的最大G值。飞行安全与最大G值、飞行高度、飞行速度、航线、机场信息、气象条件、无线电高度、地速、姿态、杆量、俯仰角率等因素都有关,本文从预处理后的数据中提取出部分关键数据项进行重要程度的分析,包括海拔高度、下降率、无线电高度、地速、姿态、杆量、左(右)侧发动机油门N1值、风向风速、俯仰角率。

由于飞行安全评估[3-4]的复杂性和特殊性,其信息存在不完全性,这一特点决定了对它可以考虑运用灰色系统理论[5]。灰色关联度分析是一种多因素统计分析的方法,具体步骤如下:

1)确定影响飞行安全的因素为评价对象,影响因素与着陆G值的关联度为评价指标。设评价对象有m个,评价指标有n个,参考数列为x0 = {x0(k)k = 1,2,…,n},比较数列为xi = {xi(k)k = 1,2,…,n},i = 1,2,…,m。

2)计算灰色关联系数:

(1)

为比较数列xi对参考数列x0在第k个指标上的关联系数,其中ρ∈[0,1]表示分辨系数。

3)计算灰色加权关联度。灰色加权关联度的计算式为:

(2)

4)评价分析。对各评价对象进行排序,结果如表1所示。

综上所述,提取出与飞行安全相关的部分关键数据项经灰色关联分析处理后,其重要程度排名在前四位的为:无线电高度、是否接通了任意侧的A/P、是否接通了A/T、杆量。

2" 飞行技术评估

2.1" 数据预处理

赛题给出的飞行参数测量数据,提供了194类飞行参数,有46万条数据。为保证模型预测的精确度,需对其进行数据预处理。首先,对空值较多的列进行删除处理,例如V1_Method、Vr_Method等;其次,将与飞行员飞行技术评估[6-7]无关的数据删除,例如机型、起飞日期等;然后,对列表中所有的缺失值进行众数填充;利用随机森林[8]特征重要度进行对数据的特征筛选,然后按照特征重要性对特征进行降序排列,保留前几个特征重要性较大的变量。依托特征数据利用机器学习模型建立预测方程,从而分析飞行员的飞行技术。

2.2" 随机森林特征重要度

随机森林是一种集成算法(Ensemble Learning),通过组合多个弱分类器,最终结果通过投票或取均值,使得整体模型的结果具有较高的精确度和泛化性能,具有抗过拟合能力。随机森林采用自助采样法(Bootstrap)获得原数据集的子集。

基于自助采样法随机森林的构建过程为:

1)使用Bootstraping有放回的随机抽样方法。从原始训练集中随机选取m个飞机参数,每次选取后都把这些参数放回原训练集。重复这个过程n_tree次,每次都能得到一个不同的特征训练集,总共生成了n_tree个这样的训练集。

2)针对n_tree个特征训练集,分别训练n_tree个决策树模型。在训练单个决策树模型时,假设考虑的特征数量是n个,在决策树的每个分裂节点,计算这些特征的信息增益、信息增益比或者基尼指数,然后选择一个能带来最大增益的特征来进行分裂。这个过程会一直持续下去,直到这个节点的所有飞机参数都属于同一个类别为止。在训练决策树的过程中,不会进行剪枝操作,也就是不会去掉某些分支来简化模型。

3)将生成的多棵特征参数决策树组成随机森林。对于分类问题,按多棵树分类器投票决定最终分类结果;对于回归问题,由多棵树预测值的均值决定最终预测结果。

2.3" 随机森林的特征选择

进行特征选择需要一个对特征好坏的度量,即判断每个特征在随机森林中的每棵树上做了多大的贡献,然后取平均值,最后比较特征之间的贡献大小。其中关于贡献的计算方式可以是基尼指数或袋外数据错误率。本文通过基尼指数[9]来计算各类飞行参数的贡献。

基尼系数数据集D的纯度可用基尼值来度量:

(3)

其中,pk表示第k类样本所占的比例,k = 1,2,…,y。Gini(D)反映了从数据集D中随机抽取两个样本,其类别标记不一致的概率,Gini(D)越小,数据集D的纯度越高。

假设第i个特征在某棵决策树上作为第m个节点,那么第i个特征的重要性可以表达为节点m分枝前后的Gini指数变化量:

(4)

其中,Gini(D(1))-Gini(D(2))-…-Gini(D(v))表示分枝后v个新节点的Gini指数之和,数据集D中的样本在第i个特征上的取值有v种。

确定要剔除的比例,依据特征重要性剔除相应比例的特征,得到一个新的特征集,用新的特征集重复上述过程,直到剩下m个特征数列(m为提前设定的值)。

在候选参数集合中,选择那个使得划分后基尼指数最小的属性作为最优划分属性,即:

(5)

其中a∈候选参数集。

经处理后将Mmo-Max(MACH)、Vmo-Max(CAS)、MACH_Method、TO_temp、Vref_Method等30个数据项作为特征飞行参数,建立梯度提升树模型[10-12]。

GBDT是一个由很多决策树组成的算法,每次迭代都会生成一棵新的决策树,这些树的结果加在一起就是最后的预测结果。它的工作原理是:每次迭代,它都会试图减少前一次预测与实际值之间的差距,也就是残差。这种减少是通过拟合损失函数的负梯度来实现的,负梯度是在向损失减小的方向去调整模型。这样,每一次迭代的预测结果都会更接近真实值。通过不断地迭代,模型就会逐渐优化,最终得到一个强学习器,也就是预测效果很好的模型。所以,GBDT就是通过不断减少残差,迭代优化模型,来得到更好的预测结果的。

在GBDT算法的每次迭代中使用一种分类回归树的基学习器。分类回归树的构建步骤为:

将飞行参数作为xi,飞行员的资质作为yi,构建分类预测模型(i可取1,2,…,n)。分类回归树的构建步骤如下:

1)给定数据集D = {(x1,y1)(x2,y2),…,(xn,yn)},假设将输入空间划分为J个叶子节点区域R1,R2,…,RJ,并且在每个叶子节点区域RJ有一个固定的输出值Cj。

2)初始化,j = 1:

(6)

其中,Cj表示当前第j个单元中所有输入样本xi对应的输出yi的平均值。

3)选择第k个特征和它的取值,作为最优切分变量和切分点,并计算损失函数H(x,y)。

(7)

其中,和表示最优切分点划分的左右两个叶子区域,、表示叶子节点区,、的最优输出值(l = 1,2,…,N)。

4)当j = J,迭代结束,生成回归树:

(8)

其中,fm-1(x)表示当前模型,表示下一棵决策树的参数。

最终得到的各飞行参数特征重要性如图3所示,其中对于占比低于4%的参数特征进行忽略。

由图3可以得出,占比较高的飞机飞行参数为TimeToGearSelUp、AALatGearSelUp、MACH_Method、TO_PitchRate、Min(GS)withT/R等,可以利用所建立的梯度提升树模型对这些参数的取值情况进行讨论,进而分析飞行员的飞行技术。

在进行梯度提升树模型的模型参数设定时,利用上述各飞行参数特征重要性对此模型进行评估,通过量化指标来衡量GBDT的预测效果,结果如表2所示。

由于准确率、召回率、精确率均为越接近于1,模型效果越好,所以由表2可知,GBDT的预测结果较为良好,可以通过TimeToGearSelUp、AALatGearSelUp、MACH_Method、TO_PitchRate、Min(GS)withT/R等飞行参数来分析飞行员的飞行技术。

3" 结" 论

研究发现,在飞行的整个过程中,影响飞行安全重要指标G值的因素,按照重要程度排名是:无线电高度、是否接通了任意侧的A/P、是否接通了A/T、杆量。

而对于飞行员的飞行技术,通过随机森林特征重要度的方法分析得出占比较高的飞机飞行参数为TimeToGearSelUp、AALatGearSelUp、MACH_Method、TO_PitchRate、Min(GS)withT/R。根据特征数据利用机器学习中的梯度提升树建立预测方程,从而评估飞行员的飞行技术。将建立的梯度提升树分类模型应用到训练、测试数据,利用其结果对此模型进行评估,通过量化指标表明梯度提升树的预测效果较好。

参考文献:

[1] 赛氪.2023年第十三届MathorCup高校数学建模挑战赛赛题发布 [EB/0L].[2023-04-13].https://www.saikr.com/c/nd/11784.

[2] 欧海军,程铭宇.组合IQR和小波分解的基坑监测数据去噪方法研究 [J].甘肃科学学报,2023,35(5):103-106.

[3] 罗凤娥,赵强,王波,等.基于QAR数据的飞行安全评价综述 [J].科技和产业,2021,21(9):192-197.

[4] 黄静洋,潘璇,付小蓉,等.中低空通用航空飞行计划安全风险评估 [J].中国安全科学学报,2023,33(12):23-30.

[5] 朱亚兰,吕世文,徐媛青,等.基于灰色关联度分析联合熵权TOPSIS法的乳癖清胶囊综合质量评价 [J].中药材,2024,47(1):143-149.

[6] 王永刚,马文婷.飞行员驾驶技能、飞行作风及自我效能感对安全绩效的影响 [J].中国安全生产科学技术,2023,19(11):180-187.

[7] 王永刚,何定坤.飞行员持续飞行安全能力评价模型 [J].中国民航大学学报,2022,40(4):61-64.

[8] 赵龙,桑国庆,武玮,等.基于随机森林回归算法的山洪灾害临界雨量预估模型 [J].济南大学学报:自然科学版,2022,36(4):404-411+423.

[9] 张浩宇,宋占智.基于基尼系数的安徽省水资源空间均衡评价 [J].治淮,2023(1):12-13.

[10] 钟立民,付骏峰,李长宇,等.基于梯度提升决策树模型的铁路货运装卸时间预测技术 [J].铁路计算机应用,2023,32(3):1-5.

[11] 周春欣,沈建国,蒋敏兰,等.基于高光谱成像技术与GBDT的大豆品种无损鉴别 [J].中国粮油学报,2023,38(12):183-190.

[12] 申明尧,韩萌,杜诗语,等.数据流决策树集成分类算法综述 [J].计算机应用与软件,2022,39(9):1-10.

作者简介:栗雪盈(2003.02—),女,汉族,河南安阳人,本科在读,研究方向:计算机科学与技术;刘超慧(1981.02—),男,汉族,河南项城人,研究生导师,硕士,研究方向:机器学习;王淑媛(2003.01—),女,汉族,山西阳泉人,本科在读,研究方向:计算机科学与技术;雷钰炜(2003.12—),男,汉族,河南平顶山人,本科在读,研究方向:计算机科学与技术;张程旖旎(2005.11—),女,汉族,河南郑州人,本科在读,研究方向:金融学。

基金项目:河南省大学生创新创业训练计划项目(202310485024);河南省教育科学十三五规划项目(2020YB0149);郑州航院创新创业示范课程(程序设计综合实践);郑州航院教育教学改革研究与实践项目(zhjycs23-6)

标签:  数据 

免责声明

本文来自网络,不代表本站立场。如有不愿意被转载的情况,请联系我们。

iidomino cuppor