基于空间通道注意力的肝脏肿瘤分割

known 发布于 2025-08-25 阅读(490)

摘" 要:针对肝脏肿瘤分割面临的病灶形状、大小和位置差异明显等问题,文章提出了一种基于空间通道注意力的三维肝脏肿瘤分割方法。在3D U-Net的基础上融合了Transformer,提出成对全局和局部注意力PGLA(Paired Global Local Attention)模块替代Transformer中的传统注意力模块,并在尺度变换前引入CBAM(Convolutional Block Attention Module)模块。在肝脏肿瘤分割挑战赛数据集上的实验结果显示该方法在肿瘤分割的Dice系数上达到了69.18%,这些成绩均优于当前流行的模型,这证明了该方法在提高肝脏肿瘤分割精度方面的有效性。

关键词:3D肝脏肿瘤分割;3D U-Net;Transformer;成对全局和局部注意力模块;卷积注意力模块

中图分类号:TP391.4" 文献标识码:A" 文章编号:2096-4706(2024)22-0036-06

Liver Tumor Segmentation Based on Spatial Channel Attention

Abstract: Aiming at the problems of obvious differences in lesion shape, size and location in liver tumor segmentation, this paper proposes a 3D liver tumor segmentation method based on spatial channel attention. It integrates Transformer based on 3D U-Net, proposes the PGLA module to replace the traditional attention module in the Transformer, and introduces the CBAM before scale transformation. The experimental results on the liver tumor segmentation challenge dataset show that the Dice coefficient of tumor segmentation of the proposed method reaches 69.18%. These results are better than the current popular models, which proves the effectiveness of the proposed method in improving the accuracy of liver tumor segmentation.

Keywords: 3D liver tumor segmentation; 3D U-Net; Transformer; Paired Global Local Attention module; Convolutional Block Attention Module

0" 引" 言

肝脏是人体的第二大器官,在多个生理过程中发挥关键作用,它的健康对于整体健康至关重要,肝脏对与人体的重要性不可忽略。然而,由于生活习惯的改变,与肝脏有关的疾病正在对人类社会造成重大影响。肝癌通常在早期难以察觉,因此很多患者在确诊时已经进入晚期,使治疗难度增加。因其具有侵袭性和转移性,肝癌的死亡率相对较高,是世界上常见的癌症之一。不同个体的肝脏形状和大小差异很大,且肝脏肿瘤表现出多样性,包括大小、形状和密度的变化。这种多样性增加了分割任务的复杂性,通常肝脏肿瘤分割依靠经验丰富的医师操作,但人为分割主观性强,且人力资源有限。因此在医学图像分割方面需要一种更为高效的方法。而计算机分割方法能够保持一致性,不受主观因素的影响,且可以高效地在短时间内处理大量的数据,大大地减轻医生的工作负担。尽管计算机在医学图像分割方面具有许多优势,但也存在一些劣势和挑战,不同的器官、组织或者病变在图像上的边界模糊,算法的准确性可能会受到限制,因此在医学诊断中需要开发一种高效的肝脏肿瘤的自动分割方法。

计算机断层扫描(CT)是一种广泛使用的成像工具,其可以提供高分辨率的图像,显示组织结构的详细信息,使医生能够准确地识别和定位肿瘤。肝脏肿瘤的大小和形状各异,与周围正常组织的对比度不高,因此在图像中难以清晰地分割出肿瘤。为了准确地分割出肝脏肿瘤,研究者们提出了一些自动分割方法。郭鹏等[1]提出一种融合金字塔卷积的U-Net肝脏与肝肿瘤分割方法,采取金字塔卷积模块来替换传统卷积方法来提取多尺度信息。徐微等[2]提出一种基于UNet++结合残差网络与注意力机制的肝癌图像分割方法,使用残差连接来获取更多的底层特征,并且通过注意力机制为特征图通道分配注意权重。

在过去的几年中,深度学习广泛地被应用于医学图像分割等计算机视觉任务,它高精度地解决了计算机视觉任务中极其复杂的任务,为医生的诊断和治疗提供了便利。早期传统的图像分割方法主要采用阈值分割、区域生长、边缘检测等,这些方法在一些较为简单的任务中效果良好,但对于复杂和变化较大的图像仍存在一些挑战,随着计算机技术的成熟,深度学习逐渐成了图像分割领域的主流方法。首先卷积神经网络[3]在图像分割中取得了巨大成功,类似于U-Net[4]的编码器-解码器被广泛应用于医学图像分割领域,其中编码器负责从输入图像中提取特征,而解码器负责将特征映射还原到原始图像中,且编码器的每一层都通过跳跃连接与编码器的相对应层连接,这样有助于将底层和高层的特征信息结合起来,从而更好地保留图像的空间信息,有助于避免信息丢失。Transformer[5]最初由Vaswani等人于2017年提出,主要应用于自然语言处理任务,由于其灵活性和强大性能,后来被应用于其他领域。Vision Transformer[6]首次将Transformer应用到图像领域,相较于传统的卷积神经网络,ViT引入了Transformer的自注意力机制,将图像划分为固定大小的图块,然后使用Transformer来学习图像的全局特征。TransUNet[7]首次将Transformer用于U型结构,它的提出克服了U-Net在处理长距离依赖关系方面的局限性,TransUNet在图像分割任务中能够更好地捕捉上下文信息。

针对以往分割方法无法高效提取细节信息的问题,本文提出一种基于空间通道注意力的三维肝脏肿瘤分割方法。该网络基于编码器-解码器结构,引入Transformer来捕获图像中更长距离的依赖关系,提出一种新型模块成对全局和局部注意力模块PGLA(Paired Global Local Attention)来替换Transformer中的注意力模块,相较于传统注意力模块,PGLA叠加卷积注意力操作和点积运算注意力操作并且同时捕捉空间特征和空间特征,实现了对特征信息更为全面地获取。同时在尺度变换时引入CBAM[8](Convolutional Block Attention Module)模块,以此保留更多的上下文信息。

1" 方法介绍

1.1" 网络结构

对于肝脏肿瘤分割,通常使用类似U-Net基于编码器-解码器的结构来处理,编码器用来提取特征,解码器将学习到的特征进行像素级别的分类,实现图像分割的任务。传统基于CNN分割方法是在编码器和解码器中使用卷积和反卷积,但CNN的感受野较小,擅长于提取局部信息,在全局信息的提取上稍弱,相比之下,Transformer由于注意力机制的存在,更擅长于全局信息的提取,但在局部信息的获取不如CNN强。因此,结合CNN和Transformer的优点,将其融合使网络能够兼顾全局信息和局部信息的提取,增强网络的表达能力和泛化性能。当前大多模型都是基于2D分割方法,3D分割方法相较于2D分割方法具有更大的优势。2D分割仅能捕捉目标在平面上的信息,而3D分割方法能捕捉目标在三个维度上的空间信息,且在医学图像分割领域上,3D分割对于处理体积数据(如CT和MRI)更为适用,通过对体积数据进行立体分割,可以更好地定位和分割出具体的组织或器官。本文设计的网络是由传统U-Net的对称式编码器-解码器改进而来,其框架如图1所示。

其中主要结构是由成对全局和局部注意力PGLA模块、CBAM模块、下采样、上采样组成。

在编码器阶段,抛弃传统的无参数池化操作,使用带有学习参数的卷积来实现减小特征图的尺寸,在实现下采样的同时学习特征表示,提取更加抽象和高级的特征。使用提出的PGLA特征提取模块代替U-Net中的卷积操作来进一步提取更高级别的特征。在下采样前使用CBAM确保特征图的重要信息被更好地保留和强调。

在解码器阶段,使用跳跃连接将编码器和解码器相连接,再使用转置卷积恢复特征图的尺寸从而将学习到的特征映射到体素分割,同样在每层使用PGLA和CBAM来处理特征图,以恢复高分辨率的特征图,从而获得最终的分割结果。

1.2" PGLA模块

提出一种全新的注意力计算模块PGLA,该模块由注意力操作激发而来,相较于传统的注意力操作,PGLA模块不局限于单目标的注意力计算,其同时对空间信息和通道信息进行注意力操作,为了进一步地捕获空间特征和通道特征间的关联,将注意力操作中的查询和键共享。为了避免在空间注意力计算时参数量过大,将键和值投影到低维空间,使注意力计算的复杂度从二次降到线性。在点积运算注意力操作后添加卷积注意力操作,旨在点积运算注意力操作专注于全局信息,而卷积注意力操作专注于局部信息,使网络提取小目标信息的能力提升。PGLA模块如图2所示。

其中SAM计算公式为:

CAM计算公式为:

Attention计算公式为:

其中,σ为Sigmoid激活函数,f为卷积核为卷积运算,AvgPool为平均池化,MaxPool为最大池化。F为特征图,Q为查询矩阵,K为键矩阵,V为值矩阵,Softmax为激活函数。

1.3" 三维CBAM模块

CBAM为一种简单有效的轻量注意力模块,可以在通道和空间上进行注意力操作。原始CBAM为二维模块,我们在其原有基础上进行改进,将其重新设计成可运用于三维的注意力模块。三维CBAM如图3所示。

对于三维CBAM的输入,要依次通过串行顺序组合的通道注意力和空间注意力,在通道注意力模块中,使通道维度不变,压缩空间维度,将特征图C×H×W×D变换为C×1×1×1,计算每一通道所占权重,再与原特征图相乘,变换回大小C×H×W×D,以此计算通道注意力。在空间注意力模块中,使空间维度不变,压缩通道维度,将通道注意力模块的输出通过最大池化和平均池化,得到两个大小为1×H×W×D的特征图后进行拼接,再通过卷积得到1×H×W×D大小的权重,将权重与通道注意力模块的输出相乘,变换回C×H×W×D。通过上述操作以完成通道和空间上的注意力操作。

1.4" 损失函数

损失函数是基于常用的Dice损失和交叉熵损失的总和。交叉熵损失函数在训练初期具有较好的稳定性,有助于加快模型的收敛速度,而Dice损失函数则更关注于像素级别的相似性,可以促使模型生成更平滑和连续的分割结果。将两种损失函数结合起来,以利用这两种损失函数的优势。

其中,I为类数;V为体素数;Yv,i和Pv,i分别为类i在体素v处的真实情况和输出概率。

2" 实验介绍

2.1" 实验数据集

数据集来自肝脏肿瘤分割挑战赛LiTS17[9],该挑战赛与2017年医学图像计算和计算机辅助干预(MICCAI)和2017年IEEE国际生物医学成像研讨会(ISBI)联合组织。数据集包含201张腹部计算机断层扫描图像,其中有131个训练图像和70个测试图像,标签由训练有素的放射科医生或肿瘤科医生手工标注两个标签(肝脏和病变)。图4展示了一些横截面。将131个训练数据中不含肝脏的无关数据裁剪去除,按照7∶1∶2的比例划分为训练集、验证集、测试集,以及92个训练图像、13个验证图像、26个测试图像。

2.2" 实验环境及参数设置

本实验是在NVIDIA GeForce RTX 3080 Ti GPU使用PyTorch框架进行,网络输入尺寸为16×128×128的3D图像,模型采用训练的优化器为SGD(Stochastic Gradient Descent)优化器,学习率为0.01,动量为0.01,权重衰减率为0.000 03,批次大小为4,训练次数为1 000。

2.3" 实验评价指标

为了评估所提出网络的分割性能,使用4个评价指标对模型性能进行评价,Dice相似系数指标(Dice Similarity Coeffificient, DSC)、豪斯多夫距离(95% Hausdorff distance, HD95)、交并比(intersection over union, IoU)、对称位置的平均表面距离(Average Symmetric Surface Distance, ASSD),具体如下:

1)DSC用于度量两个集合的相似性,结果越接近1分割结果越好,A和B为真实标签和预测分割,公式表达式为:

2)HD95用于衡量边界的重合程度,结果越小代表两个集合相似度越高,dAB为A集合到B集合的单向豪斯多夫距离,dBA为B集合到集合A的单向豪斯多夫距离,结果越小代表分割结果越好,表达式为:

3)IoU用于衡量两个集合的相似性,结果越接近1分割结果越好,A和B为真实标签和预测分割,公式表达式为:

4)ASSD用于计算对称位置的平均表面距离,结果越小分割结果越好,S(A)代表A集合中的表面体素,d(v,S(B))表示任意体素到S(B)的最短距离,公式表达式为:

3" 结果及分析

3.1" 对比实验

将本文所提网络与U-Net、UNETR++[10]、UNETR[11]、nnFormer[12]等主流模型进行对比实验,为了保证实验的一致性,所有实验均在相同的实验环境中进行。结果如表1所示。

由表可知,本研究所提出的算法在肝脏分割与肝脏肿瘤分割中均优于其他方法。其中肝脏肿瘤分割方面提升更为明显,从对比实验结果可以看出,本文的方法在肝脏肿瘤分割方面Dice为69.18%、HD95为28.87 mm、IoU为56.27%、ASSD为10.84 mm,相较于当前的热门网络UNETR++各项评价指标分别提升了3.36%、4.73 mm、3.31%、1.87 mm。图5使用箱线图对肝脏肿瘤分割的Dice结果进行了比较。箱线图中“+”为异常点,“*”为使用威尔科克森符号秩检验后的结果,代表对比实验数据与本文模型数据间的差异具有统计学意义,“**”代表具有显著性差异,且由箱线图可以看出,相较于其他方法,本文方法在Dice中位数上有提升,且分割效果较为集中。图6展示了一些本文自动方法的分割结果的横截面和专业医师的人工勾画结果的横截面。由分割结果可以看出本文方法尽管不完美,但是对于单一大肿瘤目标分割十分精准,且对于多肿瘤目标和小肿瘤目标也能够识别标注,与专业医师勾勒的结果相似。

3.2" 消融实验

为了进一步研究本文方法的性能,进行消融实验。实验基本框架都是基于本文所提出的框架,在本文的基础上删除添加的模块或替换模块,结果如表2所示。

在消融实验中,我们对所提出模块的有效性进行了实验。首先使用U-Net作为基线来进行对比,添加所提出的PGLA模块后Dice提升了2.23%,添加CBAM模块后Dice提升了1.83%。由此可以看出本文所提的PGLA模块和CBAM模块在肝脏肿瘤分割精度方面具有较大提升。将两个模块同时添加到U-Net中,Dice提升了4.76%,可以看出提升更加明显。本文所提出的结构在肝脏肿瘤分割方面性能提升较为明显,可能的原因是在尺度变换前使用的CBAM模块保存了更全面的特征图信息,传统的点积运算注意力操作结合卷积注意力计算操作,提高了网络在空间和通道特征的捕捉能力。

4" 结" 论

本文为解决二维分割导致片间信息的丢失,传统方法无法兼顾空间注意力和通道注意力,提出了一种三维通道空间注意力肝脏肿瘤分割网络。本文做出的贡献如下:

1)提出PGLA模块,替换传统Transformer的注意力操作,PGLA模块在通道和空间注意力操作中共享key和value,能够获取通道和空间特征之间的相关性,而传统Transformer并不能同时计算通道注意力和空间注意力,无法取得空间和通道特征间的相关性。在点积运算后添加卷积注意力运算,两种注意力计算方式相结合的方式能进一步捕捉空间和通道特征。

2)考虑到编码器-解码器结构在特征图尺寸变换时会损失信息,在每一层尺寸变换前添加CBAM注意力模块,确保特征图在尺寸变换时保留更多的信息。

3)为了解决二维分割方法会损失片间信息,提出三维分割网络。

对比实验结果表明,相较于目前较流行的网络模型U-Net、UNETR++、UNETR、nnFormer,本文提出的方法在肝脏肿瘤分割方面取得了更好的分割结果。消融实验结果表明,本文提出方法比其余网络有效要归功于CBAM模块和PGLA模块,首先PGLA模块能够进行空间和通道注意力操作,取得空间和通道特征的依赖关系,且同时具有两种注意力计算机制,点积运算注意力和卷积运算注意力操作相结合,点积运算注意力操作能够在不同位置之间建立起长距离的依赖关系,注重于捕捉长距离信息,而卷积运算注意力操作能够有效地提取局部信息,更注重于提取小目标信息,两者相结合使得模型对肝脏肿瘤的分割性能得到提升。其次在尺度变换时增加的CBAM模块能够对细节信息进一步地保留。

医学图像分割是一项具有挑战性的任务,复杂的结构和形态使得分割算法需要较强的鲁棒性和泛化能力,且受限于人力资源和时间成本,可供学习使用的医学图像数据十分紧缺。因此我们下一步的工作重点是将本文方法运用到生成对抗网络中。

参考文献:

[1] 郭鹏,邵剑飞.融合金字塔卷积的U-Net肝脏与肝肿瘤分割网络 [J].现代电子技术,2023,46(5):85-88.

[2] 徐微,汤俊伟,张驰.基于RA-UNet++的肝癌图像分割方法 [J].软件导刊,2023,22(8):203-208.

[3] PATIL A,RANE M. Convolutional Neural Networks: An Overview and its Applications in Pattern Recognition [C]//Information and Communication Technology for Intelligent Systems:Proceedings of ICTIS 2020,Volume 1,2021:21-30.

[4] RONNEBERGER O,FISCHER P,BROX T. U-net: Convolutional Networks for Biomedical Image Segmentation [C]//Medical Image Computing and Computer-Assisted Intervention-MICCAI 2015:18th International Conference,Munich,Germany,October 5-9,2015,Proceedings,PartⅢ 18. Springer International Publishing,2015:234-241.

[5] VASWANI A,SHAZEER N,PARMAR N,et al. Attention is All You Need [C]//NIPS17:Proceedings of the 31st International Conference on Neural Information Processing Systems.Red Hook:Curran Associates Inc,2017:6000-6010.

[6] DOSOVITSKIY A,BEYER L,KOLESNIKOV A,et al. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale [J/OL].arXiv:2010.11929 [cs.CV].(2020-10-22).https://arxiv.org/abs/2010.11929.

[7] CHEN J,LU Y,YU Q,et al. TransUNet: Transformers Make Strong Encoders for Medical Image Segmentation [J/OL].arXiv:2102.04306 [cs.CV].(2021-02-08).https://arxiv.org/abs/2102.04306.

[8] WOO S,PARK J,LEE J Y,et al. CBAM:Convolutional Block Attention Module [C]//Proceedings of the European Conference on Computer Vision (ECCV).Munich:Springer,2018:3-19.

[9] BILIC P,CHRIST P,LI H B,et al. The Liver Tumor Segmentation Benchmark (LiTS) [J/OL].Medical Image Analysis,2023,84:102680(2022-12-05).https://doi.org/10.1016/j.media.2022.102680.

[10] SHAKER A,MAAZ M,RASHEED H,et al. UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [J/OL].arXiv:2212.04497 [cs.CV].(2022-12-08).https://arxiv.org/abs/2212.04497.

[11] HATAMIZADEH A,TANG Y,NATH V,et al. UNETR: Transformers for 3D Medical Image Segmentation [C]//2022 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV).Waikoloa:IEEE,2022:574-584.

[12] ZHOU H Y,GUO J,ZHANG Y,et al. nnFormer: Volumetric Medical Image Segmentation via a 3D Transformer [J].IEEE Transactions on Image Processing,2023,32:4036-4045.

标签:  注意力 

免责声明

本文来自网络,不代表本站立场。如有不愿意被转载的情况,请联系我们。

iidomino cuppor