基于深度学习的声带疾病诊断识别方法比较研究

known 发布于 2025-08-25 阅读(326)

摘 要:在医学图像诊断领域,计算机辅助诊断技术已提升了图像诊断的准确性,但针对声带疾病的喉镜图像深度学习模型仍相对稀缺,这在一定程度上限制了声带疾病识别领域的发展。文章采用经典的VGG-Net算法和一种引入注意力机制的算法来对喉镜图像进行分类。通过比较这两种算法在准确率、召回率/灵敏率和特异率方面的表现,评估它们在医学图像分类性能上的优劣。实验结果表明,引入注意力机制的SA、SE-Net、CBAM和ECA-Net算法在性能上明显优于VGG-Net算法。结合深度学习和注意力机制可显著提升声带疾病喉镜图像诊断的准确性和效率,这对未来医疗行业的健康发展有着极其重要的意义。

关键词:医学图像诊断;声带疾病;喉镜图像;VGG-Net算法;注意力机制

中图分类号:TP391.4;TP18 文献标识码:A 文章编号:2096-4706(2024)08-0111-05

DOI:10.19850/j.cnki.2096-4706.2024.08.025

0 引 言

声带疾病主要是因为声带受到急性创伤或慢性刺激,导致声带新生物的出现,引发声带息肉、小结、声带接触性肉芽肿、声带白斑以及喉癌恶性肿瘤等病变。在临床诊断中,对喉部进行不同角度的图像取样,是发现喉部新生物的重要手段之一[1]。耳鼻喉科医生主要依靠电子喉镜对声带新生物进行不同角度的图像取样,观察声带病变部位形态,如大小、颜色、不规则性、粗糙度和对比度等,通过视觉来识别可疑的病灶,进而诊断出患者病情[2-4]。图1给出了正常声带喉镜图像和病态声带喉镜图像,其中,图1(a)至图1(e)分别为正常声带、声带息肉、声带小结、声带囊肿和声带白斑。然而,对声带疾病的人工检测有赖于医生的水平和经验,易受医生对病变形态的片面认识和把握能力等主观因素的影响。同时,大量阅片增加了医生的工作量,难免会产生漏诊误诊,最终导致患者不能获得及时有效的治疗。

基于此,计算机辅助诊断技术开始应用在临床中,可辅助医生对医学图像进行分析诊断,极大地提高了诊断的效率和准确性。由于深度学习技术在自然图像分类及识别领域取得了较好的成效,相关学者开始将深度学习技术应用到医学图像诊断研究中。深度学习的一个较为重要的应用领域是图像分类,目前已推出一些优秀的深度学习模型。Simonyan等人提出了VGG-Net [5],通过采用多层3×3的卷积核和2×2的池化核不断加深网络结构来提升分类性能。Sasikanth等人[6]采用融合最优特征级的ANFIS分类器进行脑MRI图像的分类,取得了较好的分类精度。Esteva等人[7]使用CNN网络诊断皮肤疾病,基于2 032种不同疾病类型和129 450张图片的皮肤病数据集训练CNN网络,取得了与测试专家等同的成效。

深度学习在各类疾病诊断中的成功应用,促使众多学者纷纷尝试运用深度学习技术来处理喉镜医学图像,辅助检测和诊断声带疾病。Matava等人[8]使用ResNet、Inception和MobileNet三种卷积神经网络对声带和气管进行分类、识别和标记,以在喉内镜视频的传输中识别声带和气管环。Xiong等人[9]验证了深度卷积神经网络在喉癌诊断方面的可行性。Cho等人[10]验证了CNN6、VGG16、Inception V3和Xception在基于喉镜图像分析进行声带疾病诊断方面的成效。Laves等人[11]比较了SegNet、UNet、ENet、ErfNet四种语义分割网络在喉内镜图像分割中的成效。Yin [12]等人通过训练CNN模型来对喉部图像进行分类。

然而,与其他医学图像相比,学者们对于应用于喉镜图像的深度学习模型的研究还是十分有限的,这是因为在整个喉镜图像中声带区域所占比重较小而无关区域过多。本文将选取正常声带喉镜图像和病态声带喉镜图像(声带息肉、小结、声带接触性肉芽肿和声带白斑等)作为图像集,对比经典算法VGG-Net和引入注意力机制算法的识别效果,对喉镜声带图像进行声带病变二分类(正常、病变),以期发现符合基于喉镜图像的声带病变分类识别模型。

1 模型引入

本文将引入已被用于提高各种图像分类性能的引入注意力机制的SE-Net [13]、CBAM [14]、ECA-Net算法,与经典VGG-Net [15]及引入Spatial Attention的VGG算法(SA)进行比较分析。Simonyan等人提出了VGG-Net网络结构,探索了卷积神经网络深度与其性能的关系。VGG-Net是传统的经典神经网络,整个网络采用3×3的卷积核和2×2的最大池化层。其中19层的VGG-Net19网络结构最佳,包含16个卷积层和3个全连接层,其网络结构如图2所示。

如图3(a)所示,SE-Net是在通道中增加注意力机制,其核心是SE模块。SE模块通过学习的方式自动获取每个特征通道的重要程度,依据重要程度让网络有选择地增强有用的特征,提升网络的准确性。对输入图像特征进行全局平均池化(Global Average Pooling, GAP),通过两个全连接层(Full-connected Layer, FC)和非线性层(ReLU和sigmoid激活函数)生成每个特征通道可以学习的权重,再通过乘法将权重加权到原来的通道对应特征上,获得具有通道注意力的特征。

SA(Spatial Attention)算法在VGG通道方向添加了空间注意力机制SA。空间注意力机制SA结构如图3(b)所示,输入尺寸为W×H×C(W、H、C分别为特征图的高度、宽度和通道数)的X图像,其经过平均池化、卷积层和Sigmoid激活函数变换为空间权重。输入X图像与空间权重相乘输出提取特征后的图像Y。空间注意力机制可通过网络计算出输入图像各个通道的权重,从而集中关注重要的特征信息,减少对非重要特征信息的关注。

ECA-Net的核心是ECA模块,如图3(c)所示。ECA-Net是在SE模块的基础上经过改进而形成的,ECA可增加通道间的信息交互并且避免特征维度的减少,在降低模型复杂度的同时提升模型的性能。ECA模块的工作原理是对输入图像的特征进行全局平均池化(Global Average Pooling, GAP),通过一维卷积进行跨通道间的交互,sigmoid激活函数生成每个特征通道可学习的权重,之后将原始图像的特征与权重加权相结合获得具有注意力的特征。CBAM(Convolutional Block Attention)是一种卷积注意力模块,可无缝集成到任何CNN架构中,进行端到端训练,如图3(d)所示。CBAM是结合了通道注意力模块和空间注意力模块。其原理是通过通道注意力模块,得到加权结果之后,再通过空间注意力模块后,进行加权获得结果。CBAM既关注重要特征,又利用有意义的局部区域,将跨通道信息和空间信息混合在一起来提取信息特征,提高网络的性能。

2 实验分析

本文通过Olympus电子喉镜收集了541张声带病变(声带息肉、声带小结和声带白斑等)的喉镜图像和329张正常声带的喉镜图像。喉镜图像的原始像素为720×576,需将其像素调整为深度学习图像分类研究中较多使用的224×224模式。

由于声带喉镜图像存在数量少且不均衡的问题,这将会导致模型性能差,结果出现偏差。为了消除图像数量不均衡产生的不良影响,使用K折交叉验证法可更好地确保系统中的模型无过拟合现象,使模型的泛化性得到一定的提高。研究表明,当K为5或10时为最优,其中10折交叉验证被广泛应用到医学领域的深度学习之中,根据数据总量的大小本文选择K为10。本文10折交叉验证步骤:首先将图像集随机划分为10个大小相同的子集,每个子集由87张随机选择的声带图像(声带病变图像和正常声带图像)组成;再将10个子集的训练集和测试集的比例设为80:20;针对每子集进行10次实验,计算各评价指标的平均值作为最终结果。

对于医学图像识别模型,关注准确率A(Accuracy)、召回率R(Recall)/灵敏率(Sensitivity)和特异率S(Specificity)3个指标,用于对声带病理二分类识别结果进行评估,计算式如下:

(1)

其中,真正例(TP)为声带病变图像被正确识别数;真反例(TN)为正常声带图像被正确识别数;假反例(FP)为正常声带图像被识别为声带病变图像数;假正例(FN)为声带病变图像被识别为正常声带图像数。

本文采用经典算法VGG-Net和引入注意力机制的SA、SE-Net、CBAM和ECA-Net算法进行比较研究。本文将喉镜图像作为分类网络输入,实验结果如表1所示。

通过对准确率、召回率/灵敏率以及特异率这三个评估指标进行分析,得出CBAM模型的性能最好,其三个指标分别达到了90.07%、87.56%以及91.77%,如表1、图4、图5和图6所示。引入注意力机制的其他算法SA、SE-Net及ECA-Net,与CBAM模型的性能差距并不明显。相比之下,经典VGG-Net算法的表现相对较差。从实验结果可以看出,当评估指标为准确率、召回率/灵敏率和特异率时,引入注意力机制的SA、SE-Net、CBAM和ECA-Net算法明显优于经典的VGG-Net算法;在VGG通道中引入注意力机制的SA算法明显优于VGG-Net算法。在所有引入了注意力机制的算法(如SA、SE-Net、CBAM和ECA-Net)中,CBAM的表现最佳。

由图1可知,白色框框选的区域是声带部位,是诊断声带疾病的关键部位,其在整个喉镜图像中所占区域较小,喉镜图像中的无关区域过多。而借鉴人类视觉选择性感知机制的注意力机制能将注意力集中在图像中最重要的区域,给予声带区域更高的关注,同时降低对声带区域不相关部分的关注度。然而,经典的VGG-Net算法是基于整个喉镜图像进行分析,赋予各个区域相同的重要性,没有特别关注声带区域。而注意力机制算法(如CBAM)则能够更好地关注和捕获图像中的重要信息,集中关注重要的局部区域,这符合声带图像在喉镜图像中的特性,因此在所有使用的算法中,其性能表现最佳。以上结果表明,相比经典的VGG算法,引入注意力机制的算法在识别效果上有显著的提升,将注意力机制应用于喉镜声带图像的声带病变二分类,可有效提升识别率。

3 结 论

相较于其他类型的医学图像,喉镜图像中声带所占比例微小,而非声带区域的丰富纹理和颜色可能对识别准确性产生较大干扰。为了提高喉镜图像的特性,本研究引入这些使用了注意力机制的算法,对喉镜声带图像进行声带病变的二分类(即正常或病变),并进行了模型的对比分析。SE-Net、CBAM、ECA-Net等引入了注意力机制的算法在图像分类任务中表现出显著的优越性,这些算法能够通过增强有用的特征并将注意力集中于重要的信息来提高网络的识别准确率。在未来的研究中,打算尝试对声带区域进行精确分割,使用深度学习算法进行进一步的比较,以期发现更适合喉镜图像声带病变分类识别的模型。

参考文献:

[1] 付嘉,李丽娟,闫燕,等.深度学习辅助电子喉镜诊断喉白斑的应用研究 [J].临床耳鼻咽喉头颈外科杂志,2021,35(5):464-467.

[2] HSIUNG M W,HSIAO Y C. The Characteristic Features of Muscle Tension Dysphonia before and after Surgery in Benign Lesions of the Vocal Fold [EB/OL].[2023-06-05].https://sci.bban.top/pdf/10.1159/000081121.pdf.

[3] COUREY M S,SCOTT M A,SHOHET J A,et al. Immunohistochemical Characterization of Benign Laryngeal Lesions [EB/OL].[2023-07-06].https://sci.bban.top/pdf/10.1177/000348949610500706.pdf.

[4] 韩勇,王家顺,李小兰,等.电子喉镜下声带良性增生性病变的治疗 [J].中国耳鼻咽喉颅底外科杂志,2008(2):143-144.

[5] SIMONYAN K,ZISSERMAN A. Very Deep Convolutional Networks for Large-Scale Image Recognition [J/OL].arXiv:1409.1556 [cs.CV].[2023-06-15].https://doi.org/10.48550/arXiv.1409.1556.

[6] SASIKANTH S,KUMAR S. Glioma Tumor Detection in Brain Mri Image Using Anfis-Based Normalized Graph Cut Approach [J].International Journal of Imaging Systems and Technology,2018,28(1):64-71.

[7] ESTEVA A,KUPREL B,NOVOA R A,et al. Dermatologist-Level Classification of Skin Cancer with Deep Neural Networks [J].Nature,2017,542(7639):115-118.

[8] MATAVA C,PANKIV E,RAISBECK S,et al. A Convolutional Neural Network for Real Time Classification, Identification, and Labelling of Vocal Cord and Tracheal Using Laryngoscopy and Bronchoscopy Video [J].Journal of Medical Systems,2020,44(2):1-10.

[9] XIONG H,LIN P L,YU J G,et al. Computer-Aided Diagnosis of Laryngeal Cancer via Deep Learning Based on Laryngoscopic Images [J].Ebiomedicine,2019,48:92-99.

[10] CHO W K,CHOI S H. Comparison of Convolutional Neural Network Models for Determination of Vocal Fold Normality in Laryngoscopic Images [J].Journal of Voice,2020,33:634-641.

[11] LAVES M H,BICKER J,KAHRS L A,et al. A Datasets of Laryngeal Endoscopic Images with Comparative Study on Convolution Neural Network-Based Semantic Segmentation [J/OL].arXiv:1807.06081v4 [cs.CV].[2023-06-19].http://arxiv.org/abs/1807.06081.

[12] YIN L,YANG L,PEI M,et al. Laryngoscope8: Laryngeal Image Datasets and Classification of Laryngeal Disease Based on Attention Mechanism [J].Pattern Recognition Letters,2021,150(6):207-213.

[13] FAN Y Q,LIU J H,YAO R X,et al. COVID-19 Detection from X-ray Images Using Multi-Kernel-Size Spatial-Channel Attention Network [J/OL].https://doi.org/10.1016/j.patcog.2021.108055Get rights and content.

[14] HU J,SHEN L,ALBANIE S,et al.“Squeeze-and-Excitation Networks”[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2020,42(8):2011-2023.

[15] WANG Q L,WU B G,ZHU P F,et al. “ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks [C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle:IEEE,2020:11531-11539.

作者简介:邹锋(1976—),男,汉族,广东河源人,高级工程师,硕士,研究方向:生物医学工程;通讯作者:郭珊珊(1988—),女,汉族,湖北襄阳人,主治医师,硕士,研究方向:耳鼻咽喉头颈外科;樊玉琦(1976—),男,汉族,安徽合肥人,副教授,博士,研究方向:人工智能

收稿日期:2023-08-17

基金项目:浙江省医药卫生科技计划项目(2022PY090);浙江省教育厅科研项目(Y202147891);2020年宁波市鄞州区农业与社会发展科技项目

Comparative Study on Diagnosis and Recognition Methods of Vocal Cord Diseases Based on Deep Learning

ZOU Feng1, GUO Shanshan2, FAN Yuqi3

(1.Zhejiang Pharmaceutical University, Ningbo 315100, China; 2.Ningbo Yinzhou No.2 Hospital, Ningbo 315192, China; 3.Hefei University of Technology, Hefei 230009, China)

Abstract: In the field of medical image diagnosis, computer-aided diagnostic technology has improved the accuracy of image diagnosis, but laryngoscope image Deep Learning models for vocal cord disease are still relatively scarce, which to some extent limits the development of the field of vocal cord disease recognition. This paper uses the classic VGG-Net algorithm and an algorithm that introduces Attention Mechanism to classify laryngoscope images. Evaluate the performance of these two algorithms in medical image classification by comparing their accuracy, recall/sensitivity, and specificity. The experimental results show that the SA, SE-Net, CBAM, and ECA-Net algorithms that introduce Attention Mechanisms have significantly better performance than the VGG-Net algorithm. The combination of Deep Learning and Attention Mechanisms can significantly improve the accuracy and efficiency of laryngoscopy image diagnosis for vocal cord disease, which is of great significance for the healthy development of the future medical industry.

Keywords: medical image diagnosis; vocal cord disease; laryngoscope image; VGG-Net algorithm; Attention Mechanism

标签:  声带 

免责声明

本文来自网络,不代表本站立场。如有不愿意被转载的情况,请联系我们。

iidomino cuppor