基于机器学习的前列腺肿瘤患者分类预测研究

known 发布于 2025-08-25 阅读(284)

摘 要:针对临床中不能实时高效筛查前列腺患者并进行分类的难题,构建了基于BP神经网络、随机森林(RF)算法、径向基函数(RBF)和卷积神经网络(CNN)的4种机器学习模型,以快速鉴别不同类型的前列腺患者。利用参数和交叉验证不断优化模型,同时采用准确率、精确率、召回率和两者的调和平均值4个指标来评价模型性能。结果发现,BP神经网络、RF算法、RBF和CNN的准确率分别为0.930、0.965、0.877、0.982,说明4种方法都能较好地完成对前列腺患者的分类预测,其中CNN分类预测效果最好,可以为前列腺癌的早期临床筛查提供参考。

关键词:前列腺增生;前列腺腺癌;机器学习;分类预测;混淆矩阵

中图分类号:TP183 文献标识码:A 文章编号:2096-4706(2024)17-0073-05

0 引 言

前列腺癌是仅次于肺癌的全球第二大恶性肿瘤[1],在男性泌尿生殖系统中,前列腺癌的发病率占男性实体恶性肿瘤的第2位,死亡率居第5位[2],预计到2040年,将会新增229.4万例病例。随着我国人民生活方式的改变和人均寿命的延长,前列腺癌发病率逐年呈上升趋势[3],尤其是经济发达的城市,如北京、上海和广州等[4]。自2012年起,中国的前列腺癌位列男性恶性肿瘤第6位[5-6]。

前列腺癌的筛查有利于实现临床的早期发现、诊断和治疗,如何快速鉴别前列腺增生和前列腺癌成为临床诊断的难题[6-7]。王逸飞等人采用XGBoost算法,对前列腺增生和前列腺癌患者的分类预测模型进行了构建,通过precision、F1-score等指标发现,该模型能够有效地对两者进行区分[8]。林中飞等提出了融合个体学习器和Stacking分类模型,分类预测了前列腺癌患者,提高了模型的准确率和泛化能力[9]。

由于前列腺肿瘤预警数据属于结构化数据,采用机器学习算法能够快速对该类数据进行分析和计算。因此本文根据前列腺疾病的特征指标,拟采用BP神经网络、随机森林(RF)算法、径向基函数(RBF)神经网络、卷积神经网络(CNN)来预测患者的前列腺疾病的类型,从而改善前列腺肿瘤患者的预后。

1 数据与方法

1.1 数据采集

本文研究的数据来源于国家人口健康科学数据中心平台上提供的“前列腺肿瘤预警数据集”,该数据集共有200病例,包括129例前列腺增生患者、46例前列腺癌患者和25例同时患有列腺增生和前列腺癌的患者。

1.2 数据预处理

对于缺少值比率大于90%的病例样本直接删除,剩余197个样本(127个前列腺增生样本、45个前列腺癌样本和25个同时患有列腺增生和前列腺癌的样本)。在此基础上,对于完整度小于70%的载脂蛋白AⅡ、载脂蛋白C2等8个指标特征也删除,筛选后,保留24个指标。为了提高筛选后样本的置信度,对24个指标采用多重插补法[10-11],选取克隆巴赫(Alpha)系数最高的数据作为研究对象。

从样本中可以发现,不同特征指标存在不同的数值量级,为了加速指标的权重参数收敛,需要将不同的指标进行标准化处理,本文采用min-max归一化方法,将指标数值归一化至[0,1]。

1.3 指标选取

为了增加前列腺患者分类预测模型的准确性和可靠性,利用与前列腺患者分类预测指标的显著相关性建立分类预测模型。在SPSS软件中,进行前列腺患者分类预测指标的皮尔逊(Pearson)相关性分析,结果如图1所示。分类预测模型指标呈现不同程度的显著相关。所以在特征权重排序[12,14]中,选取对模型贡献度较高的12个指标,分别是:游离PSA/总PSA、总PSA、无机磷(P)、游离PSA、碱性磷酸酶(ALP)、肌酸激酶的同工酶(CK-MB)、肌酸激酶(CK)、载脂蛋白A1(ApoA1)、载脂蛋白B(ApoB)、球蛋白(A1b)、低密度脂蛋白胆固醇(LDL-C)、高密度脂蛋白胆固醇(HDL-C)。

1.4 实验方法

本次实验在MATLAB_R2021b环境下进行训练和测试。首先,将预处理的数据进行随机分配为训练集和测试集,比例为7:3。其次,根据数据样本数量和指标维度,构建4类分类预测模型,分别是:采用BP神经网络、基于随机森林(RF)算法、径向基函数(RBF)神经网络和卷积神经网络(CNN)。通过固定随机种子,调整模型的结构及超参数(其余为默认值),调参表如表1所示;同时采用5折交叉验证优化以上4种机器学习算法的参数,从而稳固模型并完成模型的训练。最后利用测试集的混淆矩阵,计算出4种模型的准确率(Accuracy)、精确率(Precision)、召回率(Recall)和两者的调和(加权)平均值(F1_score)4个指标,完成模型的性能评价。

1.5 评价方法

为了有效地评价分类预测模型的性能,本次实验通过混淆矩阵,计算出每个模型的准确率(Accuracy)、精确率(Precision)、召回率(Recall)和两者的调和(加权)平均值(F1_score),从而得到模型的评价指标。各个评价指标的计算公式分别如下:

Accuracy=(TP+TN)/(TP+TN+FP+FN)(1)

Precision=TP/(TP+FP) (2)

Recall=TP/(TP+FN) (3)

F1_score=2×Precision×Recall/(Precision+Recall)(4)

其中,TP表示正确预测为正样本的个数,FP表示错误预测为正样本的个数,TN表示正确预测为负样本的个数,FN表示错误预测为负样本的个数;Accuracy表示所有正确预测(正负)样本占总的比重;Precision表示所有正样本当中,预测为正样本的比率,也称为查准率;Recall表示所有样本中,被检测出正样本的比率,也称为查全率;F1_score表示评价模型的综合性能指标,兼顾精确率和召回率的均衡得分。

2 实验结果及分析

通过固定随机种子,调整模型参数和优化模型性能,得到4种模型的训练集和测试集混淆矩阵,计算得到Accuracy、Precision、Recall和F1_score4个指标,如表2所示(其中label_1表示前列腺增生患者、label_2表示前列腺癌患、label_3表示同时患有前列腺增生患者和前列腺癌患者)。

首先,通过实验结果,可以发现神经网络、基于随机森林算法、径向基函数神经网络和卷积神经网络4种机器学习都能较好地对前列腺疾病患者类别进行区分,其测试集准确率和混淆矩阵依次如图2至图9所示。在训练集中,随机森林算法、径向基函数神经网络和卷积神经网络的准确率、精确率、召回率和F1得分达到了100%,具有很好的学习能力,而BP神经网络对于前列腺癌数据特征学习能力次之。

其次,在测试集中,通过4类模型指标得分对比发现,基于CNN分类模型的Accuracy、Precision、Recall和F1_score最高,分别是:0.982、0.990、0.982、0.986,且该模型对前列腺增生患者、前列腺癌患者和同时患有前列腺增生患者和前列腺癌患者的F1得分分别为0.985、0.973和1.000,对第三类的分类能力甚至达到了100%。可见该模型能够很好学习和提取前列腺癌数据的特征,具有很好的稳定性。

最后,基于随机森林算法的前列腺癌患者分类模型中,其测试集的准确率和F1得分分别达到了96.5%和97.3%,说明该模型对前列腺肿瘤数据也具较好的学习能力。而在基于径向基函数设计的前列腺癌患者分类模型中,虽然训练集具有不错的提取特征能力,但在测试集中,其准确率和F1得分只有87.7%和79.8%,对前列腺癌患者的分类预测精确率和召回率都只有60%,其稳定性相比其他3个模型最差。综上所述,4种模型的分类预测能力依次是:卷积神经网络(CNN)>随机森林(RF)>BP神经网络>径向基函数(RBF)。

3 结 论

本文选用前列腺肿瘤预警数据集作为研究对象,对数据集的缺失值和指标进行预处理,并随机划分为7:3的训练集和测试集。采用BP神经网络、随机森林(RF)算法、径向基函数(RBF)神经网络和卷积神经网络(CNN)4种机器学习算法构建了前列腺疾病患者的分类预测模型;通过不断优化模型参数,从而得到训练集和测试集的混淆矩阵,从测试集混淆矩阵计算得到的准确率、精确率、召回率和两者的调和平均值4个指标来看,卷积神经网络的分类效果优于其他模型,其测试集的准确率、精确率、召回率和F1得分分别是:0.982、0.990、0.982、0.986,基于4种机器学习设计的分类预测模型为临床前列腺癌患者的筛查提供了参考价值,提高临床工作者的工作效率。由于采集的数据来源是国家人口健康科学数据中心平台上提供的有限数据集“前列腺肿瘤预警数据集”,致模型的泛化能力有限;后期将会在医院临床电子病历采集数据,进一步更新和巩固模型的泛化能力,从而探索不同的优化算法模块对模型的贡献程度。

参考文献:

[1] SIEGEL R L,MILLER K D,JEMAL A. Cancer Statistics, 2019 [J].CA: A Cancer Journal for Clinicians,2019,69(1):7-34.

[2] 梁权耀,曹嘉正.前列腺癌基因甲基化的研究现状 [J].河南外科学杂志,2023,29(2):174-176.

[3] 韩苏军,张思维,陈万青.中国前列腺癌发病现状和流行趋势分析 [J].临床肿瘤学杂志,2013,18(4):330-334.

[4] 叶定伟,朱耀.中国前列腺癌的流行病学概述和启示 [J].中华外科杂志,2015,53(4):249-252.

[5] CHEN W Q,ZHENG R S,BAADE P D,et al. Cancer statistics in China, 2015 [J] CA: A Cancer Journal for Clinicians,2016,66(2):115-132.

[6] 中国抗癌协会泌尿男生殖系统肿瘤专业委员会前列腺癌学组.前列腺癌筛查中国专家共识:2021年版 [J].中国癌症杂志,2021,31(5):435-440.

[7] 郭应禄.前列腺增生及前列腺癌 [M].北京:人民卫生出版社,1998.

[8] 王逸飞,吴欢,薛万国,等.前列腺癌与前列腺增生的分类预测及癌症风险因素分析 [J].解放军医学院学报,2021,42(3):277-281+305.

[9] 林中飞,王南芳,李小红.基于机器学习的前列腺癌患者分类研究 [J].应用数学进展,2021,10(10):3261-3268.

[10] 董世杰.三种线性回归多重插补法的模拟比较 [D].天津:天津财经大学,2017.

[11] 张海洋,宋伟,王慕文,等.游离PSA/总PSA(f/t)指导前列腺穿刺的意义 [C]//中国中西医结合学会泌尿外科专业委员会第十四次全国学术会议暨2016年广东省中西医结合学会泌尿外科专业委员会学术年会论文集.广州:[出版者不详],2016:795-796.

DOI:10.19850/j.cnki.2096-4706.2024.17.014

作者简介:李佳林(1987—),男,汉族,四川内江人,讲师,博士在读,研究方向:智能计算和深度学习;侯利明(1987—),男,汉族,河南新乡人,副教授,博士,研究方向:深度学习;黄俊(1980—),男,汉族,四川自贡人,副主任医师,硕士,研究方向:泌尿外科。

收稿日期:2024-02-19

基金项目:自贡市哲学社会科学重点研究基地运动与健康创新研究中心(YDJKY23-08)

Research on Classification Prediction for Prostate Neoplasm Patients Based on Machine Learning

LI Jialin1, HOU Liming2, HUANG Jun3

(1.Sichuan Vocational College of Health and Rehabilitation, Zigong 643000, China;

2.Xinxiang Medical University, Xinxiang 453003, China; 3.Zigong First Peoples Hospital, Zigong 643000, China)

Abstract: In view of the clinical difficulties of not being able to screen prostate patients efficiently and carry out classification in real time, four Machine Learning models based on BP Neural Network, Random Forest (RF) Algorithm, Radial Basis Function (RBF), and Convolutional Neural Network (CNN) are constructed to identify different types of prostate patients quickly. The models are continuously optimized using parameters and Cross-Validation, and the performance of the models is evaluated using four indicators of accuracy, precision, recall, and the harmonic mean of the two. The accuracy of the BP Neural Network, RF Algorithm, RBF and CNN is 0.930, 0.965, 0.877 and 0.982, respectively, indicating that the four methods can all perform classification prediction of prostate patients well. Among them, CNN has the best classification prediction effect and can provide a reference for the early clinical screening of prostate cancer.

Keywords: hyperplasia of prostate; prostate adenocarcinoma; Machine Learning; classification prediction; Confusion Matrix

标签:  模型 

免责声明

本文来自网络,不代表本站立场。如有不愿意被转载的情况,请联系我们。

iidomino cuppor