摘" 要:随着现代医学的迅速发展,生物力学可以用来模拟人体机械组成各部分之间的关系,根据骨科患者的生物力学特征可以预测患者的症状类别,为临床诊断提供依据。文章为进一步提高预测分类的准确性,结合机器学习理论以最近邻算法分类及逻辑回归耦合算法来进行医学方面的骨科分类,通过双算法准确度判断的耦合结果进行进一步判断,丰富算法的计算维度,进一步提高了分类准确率的精度。
关键词:最近邻分类器;耦合算法;生物特征
中图分类号:TP391" " 文献标识码:A" 文章编号:2096-4706(2024)11-0158-05
Application in Medical Orthopedic Classification of Coupling Nearest Neighbor Classification Algorithm Based on Logistic Regression
WANG Xuanyu
(Southwest Jiaotong University, Chengdu" 611756, China)
Abstract: With the rapid development of modern medicine, biomechanics can be used to simulate the relationship between the mechanical components of the human body, and the category of symptoms of patients can be predicted according to the biomechanical characteristics of orthopedic patients, providing a basis for clinical diagnosis. In order to further improve the accuracy of prediction classification, this paper combines Machine Learning theory to classify orthopedics in medicine with Nearest Neighbor algorithm classification and Logistic Regression coupling algorithm, and further judges through the coupling results of dual algorithm accuracy judgment, enriches the calculation dimension of the algorithm, and further improves" classification accuracy.
Keywords: Nearest Neighbor classifier; coupling algorithm; biological characteristics
0" 引" 言
腰椎间盘突出症患者的骨盆入射角和腰椎角,骶骨倾斜角和腰椎前凸角、骨盆倾斜角和腰椎角这些参数之间存在显著的相关性[1],正常人体的腰椎和骨盆之间在生理功能、生理位置、解剖结构等方面,存在一定的关联性、匹配性及协调性,腰椎矢状位平衡参数和骨盆矢状位平衡参数两者之间存在一定的相关性[2],在腰椎退行性疾病当中,腰椎间盘突出症疾病临床主要表现为腰椎和骨盆之间的不协调,骨盆通过位置调整可以动态调节腰椎矢状位平衡[3]。根据不同模型可将生物力学特征与患者症状类别联系达到预测分类的预期。
最近邻算法最初由Cover和Hart于1968年提出。在模式识别领域中,KNN算法常用于分类问题和回归的非参数统计。KNN规则根据训练集中的k个最近邻中的多数标签对每个未标记的样本进行分类[4]。Sun等人引入了分类不稳定性(CIS)的概念[5],提出了一种稳定的最近邻分类器(SNN),它通过控制加权最近邻分类器(WNN)的精度在一个很小的区域内,最小化CIS来获得。严佳在2019年对稳定的最近邻分类器统计性质进行了相关归类[6]。迄今为止,最近邻算法作为机器学习算法之一,已经发展成为一个理论成熟的方法[7]。多分类逻辑回归作为机器学习分类算法,适合于处理高维数据,在各个领域都有很广泛的应用,是一种很有效的预测分类模型[8]。逻辑回归主要用来解决分类问题,最原始的逻辑回归用来解决二分类问题[9]。在此基础上进行算法的修改,可以得到面向于解决多分类问题的逻辑回归方法[10]。
本文通过对骨科患者的生物力学特征的分析,预测患者的症状类别,从而可以为临床诊断提供依据。对骨科患者的生物力学特征如Pelvic Incidence,Pelvic Tilt,Lumbar Lordosis Angle,Sacral Slope,Pelvic Radius,Grade of Spondylolsthesis进行分析,建立合适的模型,得出有效的症状类别及骨科疾病与生物力学特征的相关性;最后,对建立的算法模型进行客观的评价。
1" 最近邻算法对骨科患者分类
为方便解决图像边缘及模型问题,我们做相关假设:假设样本集中无特例误差数据项;假设忽略在模型建立求解时所产生的误差;假设六项生物力特征两两之间相关关系对本文的模型建立及求解不产生误差影响;假设不考虑在二分类逻辑回归模型求解时其他非生物力学特征对患者的症状类别的影响。本文样本集选取的是Model Wgale中的骨科患者的生物力学特征数据集。
最近邻分类器的三个基本要素为距离度量、k值的选取以及分类决策规则,其中距离度量则是根据所选取的k个最近的记录计算距离,根据模型的特征空间,选取不同的Lp距离,而针对本文样本集及模型基本情况,选取常用的L2距离,即欧几里得距离,式(1)为L2范数的计算式:
(1)
对于k值的选取要合理。k即选k个距离样本最近的数据点。如果选择的k值较小,容易发生过拟合现象,学习的估计误差会增大,预测结果会对近邻的实例点非常敏感。如果选择的k值较大,容易产生欠拟合现象,学习的近似误差会增大,与输入实例较远的训练实例也会对预测起作用,使预测发生错误。因此k值的选择反映了对近似误差与估计误差之间的权衡,可由交叉验证选择最优的k。
接下来将根据上面确定的K最近邻分类算法对本题进行求解和预测分类。首先对样本集中数据进行预处理,即对七列数据项进行数据清洗,剔除存在的缺失项以及重复值,最终清洗后本样本集数据规模为310行。接下来分析该算法可确定特征量为前六项,最后一项(class)作为目标项。接下来为探寻特征量数据内的规律信息,对六项特征量求解多个描述性统计指标(个数、平均值、最大值、最小值),如表1所示。
先针对二类标签样本集进行数据分析,绘制散点核密度矩阵估计图及标签统计图,将数据可视化从而查看各项数据列间的联系,如图1、图2所示。
由图1和图2可知每两个特征间均存在相关关系且数据分布相对均匀,故接下来进行样本集的划分。根据常规方法划分测试集占比为35%,训练集占比为65%。为提高模型的分类准确率,采用交叉验证对k值进行考量,由k = 1~30依次进行遍历,选取准确率最高的作为超参数k值。但是由于在k = 1时训练集准确率为100%,相对来说数据不稳定,为减少相对误差,故剔除k = 1的情况来选取合适的k值,如图3所示。
根据图3和交叉验证算法结果可确定在k = 17时,模型复杂程度符合样本集要求并且出现过拟合和欠拟合现象的概率最小。接下来在k = 17的情况下运用训练集进行模型训练,随后用测试集对训练后的模型进行检验,此时预测分类准确率最高,score = 0.881 720 430 107 526 9。
接下来对三类标签样本集进行绘制散点核密度矩阵估计图及标签统计图,将数据可视化从而查看各项数据列间的联系,如图4、图5所示。
由图4和图5可知每两个特征间均存在相关关系且数据分布相对均匀,故接下来进行样本集的划分。根据常规方法划分测试集占比为35%,训练集占比为65%。为提高模型的分类准确率,采用交叉验证对k值进行考量,与二类标签操作一致,如图6所示。
根据图6和交叉验证算法结果可确定在k = 7时,模型复杂程度符合样本集要求并且出现过拟合和欠拟合现象的概率最小。接下来在k = 7的情况下运用训练集进行模型训练,随后用测试集对训练后的模型进行检验,此时预测分类准确率最高,score = 0.871 559 633 027 522 9。
2" 二分类逻辑回归对骨科患者分类
对样本集中的数据进行相关特征分析,数据集的目标项分为Spondylolisthesis、Hernia以及Normal。可将患者分为正常状态和非正常状态,其中非正常状态又可细分为Spondylolisthesis和Hernia。对非正常状态患者数据建立二分类逻辑回归模型,二分类逻辑回归分析结果如表2所示,其中***、**、*分别表示1%、5%、10%的显著性水平。
二分类逻辑回归的结果显示:字段X6显著性p值为0.015**,水平上呈现显著性,拒绝原假设,因此X6会对目标量分类产生显著性影响,意味着X6每增加一个单位,骨科患者患病为spondylolisthesis的概率比Hernia的概率高了57.286%。
由表2可确定,回归方程为:
(2)
接下来对数据计算逻辑回归的分类效果进行观察,按照二类标签样本集和三类标签样本集进行分步分析。其中TP(FP)表示模型将正类别样本正确(错误)的预测为正(负)类别;TN(FN)表示模型将负类别样本正确(错误)的预测为负(正)类别。根据相关分类评价指标对逻辑回归效果进行评价,其中准确率表示预测正确样本占总样本的比例;召回率表示实际为正样本的结果中,预测为正样本的比例;精确率表示预测出来为正样本的结果中,实际为正样本的比例;F1表示精确率和召回率的调和平均,AUC值越接近1说明分类效果越好。
先按照二类标签样本集分类效果及二分类逻辑回归结果进行分析,结果如图7、表3所示。
模型评价指标可用于对模型的表现进行评估或有效性进行验证,其包括似然比检验,p值,AIC值、BIC值,***、**、*分别表示1%、5%、10%的显著性水平,如表4所示:
随后按照三类标签样本集分类效果及二分类逻辑回归结果进行分析,结果如图8、表5所示。
模型评价指标可用于对模型的表现进行评估或有效性进行验证,其包括似然比检验、p值、AIC值、BIC值,***、**、*分别代表1%、5%、10%的显著性水平,如表6所示。
由表4、表6得出,模型的似然比卡方检验的结果显示,二类标签和三类标签显著性p值0.000***,水平上呈现显著性,拒绝原假设,同时三类标签其评价指标明显优于二类标签,因而模型是有效的。
3" 基于逻辑回归的近邻分类耦合算法
在前文中已经根据K最近邻算法对模型进行大致自动分类,同时采用逻辑回归模型验证特征量和目标量之间的相关性;接下来,为提高该模型自动分类的准确率,进一步减少失误,故对上文中运用的K最近邻算法和逻辑回归模型进行耦合,细化分类程度,进一步提升本模型的准确率。令耦合新算法为f (x),根据上式可知,当最近邻算法的结果与逻辑回归结果一致时,f (x)输出结果为最近邻与逻辑回归结果;当最近邻算法的结果与逻辑回归结果不同时,f (x)输出结果为准确率高的算法预测分类结果,本次整体模型流程图如图9所示。
4" 结" 论
对于患者的自动分类,本文依托于最近邻算法通过六项特征量和目标量进行模型训练,将样本原集根据65%和35%的比例划分为训练集和测试集;为提高模型的分类准确率,采用交叉验证对k值进行考量,根据计算可知k = 7为骨科患病患者分类最优解,k值选定后用所划分的训练集对模型进行训练,输入相关六项特征量后对其进行预测和分类。在初步算法下可知其模型在骨科患病分类的准确率为score = 0.871 559 633 027 522 9。同时本文建立二分类逻辑回归模型,通过模型参数表得到患病与特征量之间的相关性。根据模型的似然比卡方检验的结果显示,该模型有效。对于患病患者样本集,字段X6显著性p值为0.015**,水平上呈现显著性,随着单位数的增加,患病为spondylolisthesis的概率比Hernia的概率升高57.286%。在前文中已经根据最近邻算法对模型进行了大致自动分类,同时采用逻辑回归模型验证特征量和目标量之间的相关性;为减少误差,对上文中的K最近邻算法和逻辑回归模型进行耦合,细化分类程度,进一步提升本模型的准确率。耦合后的算法在分类准确率上,有较大程度的提高,score = 0.930 685 444 943 163 7。本文在问题求解的过程中求解结果合理,具有一定的实际生产应用价值和普适性。
参考文献:
[1] 李稳超,司晓华.腰骶-骨盆手法调整治疗腰椎间盘突出症研究进展 [J].中医药临床杂志,2022,34(2):385-389.
[2] 叶敬尧.基于“筋骨再平衡”理论研究后路短节段减压内固定治疗退变性腰椎侧凸的临床疗效 [D].济南:山东中医药大学,2021.
[3] 刘青.针刀松解术前膝内翻患者脊柱骨盆下肢形态的影像学观察 [D].武汉:湖北中医药大学,2021.
[4] ZHANG C,ZHONG P S,LIU M,et al. Hybrid Metric K-Nearest Neighbor Algorithm and Applications [J].Mathematical Problems in Engineering,2022,2022:1-15.
[5] SUN W,QIAO X Y,CHENG G. Stabilized Nearest Neighbor Classifier and its Statistical Properties [J/OL].arXiv:1405.6642 [stat.ML].(2014-05-26).https://arxiv.org/abs/1405.6642.
[6] 严佳.稳定的最近邻分类器及其统计性质 [D].合肥:中国科学技术大学,2019.
[7] 申俞文.基于多分类逻辑回归的微表情识别模型 [D].徐州:中国矿业大学,2020.
[8] 许冲,徐锡伟.逻辑回归模型在玉树地震滑坡危险性评价中的应用与检验 [J].工程地质学报,2012,20(3):326-333.
[9] 田楚伟,陈翔溆,朱桓毅,等.机器学习在创伤骨科中的应用与展望 [J].中国修复重建外科杂志,2023,37(12):1562-1568.
[10] 菅振,吕涛,敖荣广,等.人工智能在创伤骨科中的应用 [J].生物骨科材料与临床研究,2023,20(2):76-80.
作者简介:王宣谕(2002.03—),男,汉族,辽宁本溪人,本科在读,研究方向:电子信息。
收稿日期:2023-10-25