CACDU-Net:一种新的基于双u - net的图像皮肤损伤语义分割模型
摘要
皮肤病变分割是皮肤病学领域的一项重要任务,它有助于早期发现和诊断皮肤病。深度学习技术在实现准确的病灶分割方面显示出巨大的潜力。在这些技术的帮助下,病灶分割过程可以自动化,从而减少了人工操作和主观判断的影响。这有助于节省医疗专业人员的时间和减少他们的工作量,从而提高他们的工作效率,并使医疗资源得到更好的分配。为了更好地进行皮肤病灶分割,本文在DoubleU-Net模型的基础上提出了一种新的CACDUNet模型。为此,首先,该模型采用预训练的ConvNeXt-T作为编码骨干网络,提供丰富的图像特征;其次,cacu - net利用专门设计的ConvNeXt注意卷积块(CACB),将ConvNeXt块与多种注意机制相结合,对特征提取进行细化。第三,该模型在编码和解码部分之间采用了特别设计的非对称卷积亚历空间金字塔池(ACASPP)模块,利用不同尺度的亚历卷积捕获不同层次的上下文信息。在两个皮肤病变公共数据集ISIC2018和PH2以及一个私有数据集上,对比现有主流模型对所提模型的图像分割性能进行了评估。得到的结果表明,CACDU-Net取得了优异的效果,特别是基于两个用于评估图像分割的核心指标,即交集超过联合(Intersection over Union, IoU)和骰子相似系数(Dice similarity coefficient, DSC),它超越了所有其他模型。在PH2数据集上进行的实验表明,CACDU-Net具有较强的泛化能力。
1 介绍
皮肤癌主要有基底细胞癌(BCC)、鳞状细胞癌(SCC)和黑色素瘤三种类型[1]。皮肤癌的病因是复杂的,它经常发生在皮肤组织暴露在阳光下。当皮肤细胞失去生长控制时,它们会发展成皮肤癌,黑色素瘤是最致命的类型。在恶性黑色素瘤病例中,年轻人和中年人约占三分之二,而65岁以上的人则占三分之二
约占三分之一。2018年,估计黑色素瘤病例数为28.77万例,死亡6.07万例[2]。
近年来,皮肤癌的发病率持续上升。早期诊断和及时治疗是治愈黑色素瘤最有效的方法。然而,如果一个人被诊断为晚期,生存率只有15%。医学研究人员总结了几种基于皮肤镜下皮肤病变区域色素网络和条纹的颜色、形状、质地和视觉特征的黑色素瘤临床诊断方法。
这些方法包括不对称、边界、颜色和差分结构(ABCD)规则[3]、图案分析[4]、孟氏法[5]和七点特征法[6]。
然而,皮肤病变区域的复杂性,如体毛、边界、血管等,极大地阻碍了医务人员做出准确的判断。因此,皮肤病变的分割仍然是一项具有挑战性的任务。
目前,皮肤病变分割方法可分为两大类[7]、[8]:(i)传统的机器学习(ML)方法[9],如基于边缘的[10]、基于区域的[11]、基于阈值的[12]、[13]和基于聚类的分割方法[14]、[15];(ii)深度学习(DL)方法。传统的机器学习图像分割方法通过分析图像前景和背景的差异,从图像中的灰度、对比度、纹理等信息中手动设计特征进行分割。随着ML的兴起,纯手工提取特征的分割方法成为当时的主流方法。然而,这些方法可能会遗漏很多详细信息。此外,由于设计和提取特征的复杂性等局限性,ML技术在分割领域的进一步发展受到了限制。深度学习可以充分利用图像的内在信息,逐渐成为图像分割领域的首选技术。
随着卷积神经网络(convolutional neural networks, cnn)[16]在图像分割领域的快速发展,已经有专门的医学分割模型在现场和辅助诊断方面取得了很大的成功。在皮肤病变分割领域也取得了重大突破。Ghafoorian等[17]提出了一种多分支深度CNN (multi-branch deep CNN, DCNN)用于提取多尺度上下文特征。然而,他们的网络太浅,无法提取高分辨率的特征。随着批归一化(batch normalization, BN)[18]和残差结构[19]的发展,通过使网络深度加深,解决了网络退化和梯度消失问题。Y u等人[20]报道,深度架构可以提取高度判别特征用于皮肤病变分割,但这些网络因为关注局部上下文而忽略了全局特征,从而限制了深度架构在获得更准确结果方面的使用。
最近,注意力机制在深度学习中越来越流行,用于提取全局特征以实现准确的分割。在[21]中,注意机制与流行的U-Net架构[22]结合使用来选择
通过对不同大小、形状和其他特征的器官赋予不同的通道权重来判别特征。然而,单一注意机制的使用在复杂特征的病变中失败。
本文的动机是开发一种基于DoubleU-Net的皮肤损伤分割模型,该模型一方面利用多尺度特征提取模块提取高度判别的深层特征,另一方面利用注意机制对解码器上采样后提取的特征进行细化。这些努力的结果是一个新的CACDUNet模型(https://github.com/1194449282/CACDU-Net),该模型在ISIC2018[23]和PH2[24]公共数据集以及我们自己的私有数据集上进行的图像分割实验中表现出优异的性能。
本文的主要贡献体现在三个方面:1)通过采用两个U-Net网络(分别由编码器和解码器部分组成,称为Network1和Network2),改进了DoubleU-Net[25]网络架构。Network1的编码阶段采用了最新的ConvNeXt-T CNN[26],采用了大的7 × 7卷积,然后进行下采样,分四个阶段提取特征。
(1)在Network1的解码阶段和Network2的编解码阶段都采用了不同的注意机制,并结合标准卷积和ConvNeXt块进行特征提取。
2)采用特别设计的ConvNeXt注意卷积块(CACB),在通道和空间两个维度上提供注意信息,关注病灶本身,而不是体毛、气泡、血管、测量尺度等无关信息。此外,使用堆叠的u形架构完美地结合了多层次特征,在获得全局上下文视图时捕获长期依赖关系,以帮助网络实现对皮肤病变的准确分割。
3)在编码和解码部分之间采用新设计的ACASPP (Asymmetric Convolutional Atrous Spatial Pyramid Pooling)模块,为网络提供多尺度的语义信息,有助于识别不同大小的病灶。ACASPP将非对称卷积与展开卷积结合使用,不同形状的非对称卷积从不同角度吸收信息,展开卷积的不同展开速率捕获不同尺度的信息。
2 相关工作
A.医学图像分割
随着人工智能的发展,cnn逐渐被应用到医学图像分割中。完全
卷积网络(convolutional networks, FCN)[27]是图像分割领域的先驱,它能够通过端到端、像素到像素的训练来预测每个像素,从而解决了空间分辨率问题。2015年,Ronneberger等[22]基于FCN提出了一种新的端到端语义分割网络U-Net,适用于医学图像分割。U-Net与FCN的区别在于U-Net在上采样和下采样阶段使用相同层数的卷积运算,并通过跳过连接将下采样和上采样层连接起来。因此,下采样层提取的特征可以直接传输到上采样层,从而提高了网络的像素定位和分割精度。具体来说,U-Net是一个u形对称编码器-解码器网络,它使用跳过连接来合并高级和低级语义特征[54]。Zhou等[28]在U-Net框架的基础上提出了unet++,在编码器和解码器子网之间使用一系列嵌套的、密集的跳过路径连接,进一步降低了编码器和解码器之间的语义关系,在肝脏分割任务中获得了更好的性能。U-Net++用卷积操作密集地代替了U-Net的跳过连接中的裁剪和拼接操作,以获得更好的特征信息,弥补采样带来的信息损失[49]。受U-Net和ResNet[19]的启发,DoubleU-Net[25]在U-Net模型中增加了两个编码器和解码器,以提高分割精度。后来,由于每个编码和解码层都嵌套了U-Net,因此以这种方式命名的U2-Net[29]在一些评估指标上显示出了显著的改进。Google将自注意(Self-Attention, SA)从自然语言处理[30]移植到计算机视觉中,并提出了ViT[31]作为主干。由于其强大的特征提取能力,如何将ViT及其变体与U-Net结合以获得更好的结果一直是近年来研究人员关注的焦点[49]。如swan - unet[32]将Swin Transformer[33]与U-Net相结合,分割效果更好。同样,基于Transformer架构的SegFormer[34]不仅表现出高性能,而且非常高效,与其他语义分割模型相比,使用更少的参数获得了最先进的结果。最近,在2022年,Huang等人提出了一种高效的分层编码器-解码器网络,称为misformer[35],由于其独特的设计组件,该网络具有更好的捕获远程依赖关系和本地环境的能力。
本文提出了一种新的基于DoubleU-Net的CACDU-Net模型,该模型在皮肤损伤分割方面表现出更好的性能。
B.不对称卷积
非对称卷积是cnn中使用的一种卷积运算。与常规卷积相比,非对称卷积具有更多可调参数和更强的性能特征提取能力。在正则卷积中,核通常是正方形或长方形的,宽度和高度相等,因此称为对称卷积。
而非对称卷积则允许将核的宽度和高度设置为不同的值,使模型能够更好地适应不同形状的特征。
EDA-Net[36]是一种高效的非对称卷积密集模块,它将3× 3卷积分解为1 × 3和3×1卷积,以降低计算成本。然而,它的性能在语义分割中有所下降。为了解决这一问题,Ding等[37]提出了一维非对称卷积,在水平方向和垂直方向增强特征,然后将获取的信息聚合到一个核层中,以保证良好的图像识别性能。最近,由Li等人提出的MACU-Net文献[38]将非对称卷积块应用于语义分割领域,成功地提高了卷积层的表示能力。
C.正则卷积
在深度学习领域,2014年deepplab v1模型[38][39]中首次提出了扩展卷积(又称扩张卷积),以增加接收野,提高图像分割的准确性。随后,越来越多的DL模型开始采用扩张性卷积。2015年,Szegedy等[40]在Inception v3网络中使用了扩展卷积,这有助于捕获更大范围的上下文信息,从而提高了图像分类和目标检测的性能。2016年,He等[19]提出了ResNet,通过使用扩展卷积(dilated convolution)可以更好地捕获图像中的详细信息,有助于提高图像分类和目标检测等任务的性能。在实验中,ResNet在ImageNet数据集上表现出了很好的效果。为了充分利用深层和浅层网络提取的图像特征,一种常见的解决方案是融合多尺度特征[54]。在语义分割中,通常采用并行的多分支结构来融合具有不同感受域的特征。Chen等人[41]在2017年提出的DeepLab v2模型中,使用了一个空间金字塔池(ASPP)模块作为简单有效的解码器模块,以实现清晰的分割。ASPP模块将多个不同采样率的扩展卷积并行化,并通过池化操作进行融合,提取不同尺度的特征信息。
该设计可以有效地捕获不同尺寸和分辨率的目标特征,从而提高分割模型的性能。在特征提取过程中,浅层包含小的接收场来表示几何细节,而深层包含大的接收场来表示语义信息[54]。在ASPP模块的基础上,本文进一步提出了一个非对称卷积空间金字塔池(ACASPP)模块,用于改进的CACDU-Net模型,该模型使用不同的机制来调整核大小。
D 关注
注意是深度学习中常用的一种技术。它根据输入信息的相关性赋予不同的权重,可以根据不同的情况进行调整。因此,注意机制在可扩展性和鲁棒性方面具有很高的优势。在医学图像分割领域,Oktay等[21]提出了基于U-Net网络的attention - unet,这是一种用于医学图像处理的新型注意门(attention gate, AG)网络,可以更准确地聚焦于感兴趣的区域,抑制不相关的特征,突出有用的特征。胡洁等[42]提出了挤励(Squeeze and Excitation, SE)注意机制,并在多个计算机视觉任务中进行了验证,表明该机制可以显著提高CNN模型的性能和泛化能力。Woo等[43]提出了卷积块注意模块(CBAM)。给定一个中间特征图,CBAM依次推导出两个独立的通道和空间维度,然后将注意力图与输入特征图逐像素相乘进行自适应特征细化。近年来,Transformer模型也被广泛应用于医学图像分割领域,其自关注模块捕获远程依赖关系,而卷积仅收集相邻像素的信息。然而,Transformer需要在大规模数据集上进行大量的训练才能获得满意的结果,这给其在小型医学图像数据集上的应用带来了困难。综上所述,在网络中合适的位置嵌入适当的关注模块进行皮肤病变分割,可以减少体毛、气泡等无关信息的影响,获得更准确的分割结果[54]。
3。提出了cdu - net模型
本节首先介绍了所提出的cdu - net模型的总体结构,如图1所示,然后描述了每个模块的详细信息。
A.总体结构
如图1所示,所提出的CACDU-Net模型由两个堆叠的U-Net结构组成,即Network1和Network2,它们使用不同的编码来提取特征并执行跳过连接。更具体地说,Network1用于提取较粗的特征,而Network2用于提取较细的特征。这样的设计使得模型在不同尺度下都能获得优异的分割性能,从而提高整体的分割精度。值得注意的是,Network1的预测结果通过Sigmoid函数传递,成为Network2输入的权重。具体来说,Sigmoid函数应用于Network1的输出,即大小为256× 256×1的图像,将其转换为大小相同的权重对象,其值范围为0到1。然后,对这个权重对象和大小为256× 256×3的输入图像执行矩阵乘法,得到Network2的输入,它的大小也为256× 256×3。这使Network2能够在早期阶段获得较高的评估分数,并加速预测过程。这种结构的优越性在第四节的烧蚀实验中得到了证实。
B. NETWORK1
图2展示了Network1的总体结构。可以看出,该网络采用了由编码、中间和解码部分组成的u型架构。在编码和解码部分之间插入跳过连接以传递数据。使用ImageNet数据集预训练的ConvNeXt-T[26]作为编码部分。中间部分使用ASPP进行多尺度特征提取,膨胀率设置为6、12和18。与U-Net的解码部分不同,所有传统的3 × 3卷积核都被ConvNeXt注意卷积块(CACB)取代,如第III-E小节所述。
C. NETWORK2
图3显示了Network2的总体结构。可以看出,该网络也采用了完全对称的u型结构,由编码、中间、解码三部分组成。跳过连接用于传递数据,网络接收和聚合由Network1编码的特征。中间部分使用ACASPP模块进行多尺度特征提取,膨胀率设置为6、12和18。编码和解码部分均采用CACB块,加快了特征传播和信息流。与Network1的目的不同,Network2旨在进一步从输入数据中提取特征。
D. CONVNEXT
ConvNeXt[26]是一种CNN,旨在提高特征提取能力和模型性能。与ResNet类似,它从Transformer中借鉴了许多成功的想法,但由于使用了更大的内核大小和更深的卷积,因此提高了准确性和效率。作者提出了五个版本的ConvNeXt网络,即T/S/B/L/XL,每个版本涉及四个阶段。这些版本之间的唯一区别在于通道的数量和每个阶段使用的重复堆叠块的数量[49]。ConvNeXt-T组网是指深度和宽度最小的版本。ConvNeXt- t网络的每个特征解析阶段由多个残差ConvNeXt块组成(图4a)。
如图4b所示,每个ConvNeXt块包括一个7 × 7深度卷积、两个1 × 1层和一个非线性高斯误差线性单元(GELU)激活[44]。
在Conv 1 × 1层之前使用层归一化(LN)[45]。与传统卷积不同,ConvNeXt用3 × 3深度卷积代替3 × 3卷积,采用反向瓶颈结构,采用GELU和LN代替ReLU和BN[18],激活函数更少,卷积核更大,最大可达7 × 7。如图4c所示,ConvNeXt网络利用单独的下采样层对特征进行下采样。由于ConvNeXt-T的设计保证了精度和效率,因此选择它作为所提出的CACDU-Net模型的骨干网。
E. CONVNEXT ATTENTION CONVOLUTIONAL BLOCK (CACB)
在复杂病变分割中,单一的注意机制不足以达到满意的效果。CBAM[43]集成了空间和通道注意机制,可以更好地提取有用的特征信息,降低对噪声和无关特征的敏感性,提高模型的准确性和鲁棒性。受CBAM的启发,本文提出了一个ConvNeXt注意卷积块,简称CACB,如图5所示,它由一个3 × 3卷积、一个ConvNeXt块以及CBAM通道注意模块和CBAM空间注意模块组成,分别用于提取通道和空间注意特征。3 × 3卷积后,执行BN和ReLU激活函数。
通道注意阻塞的目的是使神经网络集中于全局特征,抑制不必要的特征,如体毛、测量尺度、血管和气泡[54]。该模块对输入特征图的每个通道进行全局最大池化和全局平均池化,然后生成形状为RC×1×1的两个向量(其中C表示通道数)。这两个
然后将向量输入到多层感知器(MLP)中,该感知器通过共享权重来减少参数的数量。
MLP只包含一个隐藏层,其权重向量的形状为RC/r×1×1(其中r表示约简比,本文将其设置为16)。MLP通过两个完全连接的层来实现,以生成两个处理过的通道注意力向量。最后,通过Sigmoid激活函数将这两个向量逐像素相加并进行处理,将特征图大小恢复到与输入特征图相同的大小。通道注意阻塞功能在[54]中总结如下:
式中,F为输入特征图,σ为Sigmoid激活函数,F cavg和F cmax分别为沿通道维度进行全局平均池化和全局最大池化后得到的特征图,W0∈RC/r×C和W1∈RC×C/r为MLP的权值。
与通道注意块不同,空间注意块可以捕获长期依赖关系,获得全局上下文视图,并根据空间注意图选择性地聚合上下文信息,以获得更准确的皮肤病变边界分割性能[54]。空间注意块对周围区域皮肤颜色相近的病变边缘更为敏感,可以有效提取边缘的曲线结构特征。更具体地说,首先沿着特征映射的通道轴进行平均池化和最大池化操作,以识别特征映射中具有最大信息的区域。
然后,将池化操作的结果连接起来,以创建一个有效的特征描述符。接下来,卷积层对连接的特征描述符进行处理以生成空间注意图,该空间注意图指示特征图中应该强调或抑制的位置。具体操作如下:
式中,f 7×7表示滤波器大小为7×7的卷积运算,二维特征图的通道信息分别用f cavg∈R1×H×W和f cmax∈R1×H×W表示(H表示高度,W表示宽度)。
F。非对称卷积空间金字塔池(acaspp)
据文献[37]报道,平方卷积核捕获尺度不均匀的特征。具体来说,中心交叉位置(即核骨架)的权值较大,而角点对特征提取的贡献较小。利用非对称卷积核可以弥补方形卷积核在设计上的不足。如图6a所示,ASPP在不同采样率下使用不同的属性率进行卷积运算,提取不同感受野范围内的特征,从而捕获多尺度信息。
在此基础上,将[37]中提出的非对称卷积思想与扩展卷积相结合,设计了一种新的ACASPP模块,该模块用于捕获来自不同感受场的特征。如图6b所示,每个扩张速率都有两个相应的分支,即1 × 3卷积(水平核)和3 × 1卷积(垂直核),分别使用BN和ReLU来提高数值稳定性,以获得一个十字形的感受野。ASPP中的3 × 3卷积捕获具有更大接受场的特征,而水平和垂直核确保了骨架上特征的显著性,扩大了网络的宽度[49]。然后,将每个支路连接起来,在恢复输入时使用3 × 3卷积恢复通道数。最后,将结果逐像素地与ASPP结果相加并输出。设y [i]为输出信号,x [i]为输入信号,则亚历斯卷积可表示为:
其中,k表示核大小,d表示膨胀。
若Hk×k,r (x),其中r为膨胀率,表示由Conv2d卷积、BN和ReLU激活函数组成的操作,则ASPP可以表示为:
ACASPP为:
图6。(a) ASPP模块结构;(b) ACASPP模块结构。
G.损失函数
复合损失函数,特别是与骰子相关的复合损失函数,通常比单一损失函数具有更好的分割效果和更高的模型性能。在医学图像分割中,在实验过程中经常会出现类不平衡现象,导致模型训练偏向于密集分布的像素类,使模型难以学习到小物体的特征,从而降低了网络的性能。因此,在进行的实验中,使用组合损失函数进行分割监督。
二值交叉熵(BCE)损失函数广泛应用于包括语义分割在内的各个领域。
在使用BCE时,对每个像素进行顺序评估,忽略上下文标签,并对分割像素和背景像素进行加权,极大地帮助了网络收敛。由于BCE损耗可以更有效地计算出反向传播过程中不同类别对应的梯度值,因此梯度问题得到了有效的解决使用它可以更好地解决消失问题。BCE损失定义如下:
其中gi表示医生对像素I的分割结果,PI表示网络对像素I的分割结果。
DSC损失函数以Dice相似系数(DSC)命名,DSC是用于评估两个样本之间相似性的度量。DSC损失函数在正样本和负样本严重不平衡的情况下表现良好。在模型训练过程中,更注重对前景区域的挖掘,使预测结果更接近实际结果。但是,如果实验过程中的预测结果与像素标记的真实结果不完全相同,则DSC损失函数可能会对反向传播产生负面影响,从而使模型的训练变得非常困难。然而,使用DSC损失函数可以减少过拟合的发生。DSC损失定义如下:
为了加快网络的收敛速度,减轻梯度消失的影响,最大限度地减少反向传播过程中的类不平衡问题,以及改善皮肤病分割,我们将这两种损失函数结合起来训练我们的模型,具体方法如下:
Iv.实验和结果
A.数据集和数据预处理
实验中使用了国际皮肤成像协作挑战数据集(ISIC2018)[23]、PH2数据集[24]和一个私有数据集。ISIC2018是目前世界上最大的皮肤病变图像数据集,提供专业注释的数字皮肤病变图像,促进黑色素瘤和其他皮肤癌的CAD发展[54]。PH2数据集由葡萄牙Matosinhos的Pedro Hispano医院和波尔图大学皮肤病服务部联合收集。私人数据集由北京协和医院提供,包括痤疮和红斑狼疮的皮肤病变图像。
ISIC2018包含2594张带有分割掩码标签的皮肤显微图像。对于实验,该数据集以7:1:2的比例随机分为训练集、验证集和测试集。在模型训练之前,随机选择1/3的训练集图像,通过计算机程序在其上模拟额外的随机体毛。
此外,在训练过程中,对ISIC2018训练集进行了水平翻转、垂直翻转、随机亮度、高斯模糊、均值平滑滤波、随机色调饱和等操作(图7)。
应该注意的是,这些额外的操作都没有应用于验证集和测试集。PH2数据集,
仅包含200张图像,作为测试在ISIC2018数据集上训练的模型的额外集。将包含1010张图像的私有数据集按8:1:1的比例随机分为训练集、验证集和测试集,对其进行实验。表1显示了为进行模型性能比较实验而对数据集进行分割的细节。第IV -D4小节中介绍的消融研究实验仅在ISIC2018数据集上进行。
B.实验环境
实验采用Pytorch版本1.12.1 [46],Python版本3.10.6,操作系统Ubuntu 22.04。所有实验都在一台配备第12代Intel®Core™i512400 CPU, 16GB RAM和NVIDIA GeForce RTX 3060 (12GB内存)的计算机上进行。训练周期数设置为150。使用Adam优化器[47],初始学习率为1e-4,权值衰减为1e-6,动量为0.9,批大小为8。对于输入图像大小,除了swwin - unet和MISSFormer使用的是224 × 224像素外,所有模型都设置为256 × 256像素。
C.评估指标
在实验中,我们使用了6个评价指标来衡量比较模型的分割性能,即Intersection over Union (IoU)、DSC、准确性、灵敏度、特异性和精度。
IoU,也称为Jaccard索引,是语义分割中最常用的指标之一。IoU定义为预测分割与地面真值的重叠面积与它们的并集面积之比。在我们的情况下,计算为:
其中TP(真阳性)表示正确识别的像素作为对象的一部分的数量(即,在我们的例子中,皮肤病变),FN(假阴性)表示错误识别的像素不属于对象的数量,FP(假阳性)表示错误识别的像素作为对象的一部分的数量。
DSC已成为评价图像分割模型最普遍使用的度量。它被定义为两倍于预测分割和地面真实之间的重叠面积除以两者的像素之和。DSC的计算公式如下:
精度(Acc)用于评价整体像素级分割性能,计算公式如下:
其中TN(真负)表示被正确识别为不属于对象的像素的数量。
灵敏度(Sen)表示被正确分割的皮肤病变像素的比例,如下所示:
特异性(Spe)定义为非病变像素被正确分割的比例,如下所示:
Precision (Pre)表示预测阳性样本的比例,如下所示:
D.结果和分析
通过在上述三个数据集上进行实验,将所提出的CACDU-Net模型与主流医学图像分割模型进行对比,实验结果在本节中展示。
1) ISIC2018 DATASET
ISIC2018公共数据集包含了相对大量的皮肤图像,其中包括许多难以分割的图像[54]。因此,在实验中使用的三个数据集中,在该数据集上获得的结果是最具说服力的。因此,下文介绍的消融研究实验仅在该数据集上进行。
表2给出了最先进的模型在该数据集上使用与建议的CACDU-Net模型相同的实验配置获得的分割性能比较结果(每个指标的最佳结果以粗体显示)。在这里,cacu - net取得了优异的成绩
结果,特别是基于图像分割中使用的两个核心评估指标,即IoU和DSC,根据这两个指标,它优于所有其他模型。更具体地说,亚军(双网)的IoU和DSC分别少了0.0189分和0.0120分。
此外,基于准确率,所提出的CACDU-Net模型在皮肤病变分割方面也优于所有模型,将亚军(U2-Net)甩在后面0.0046分。根据使用的其他三个评估指标,所提出的cdu - net模型在该组中也表现良好,相应的在灵敏度上排名第二,在精度上排名第三,在特异性上排名第四(共享)。
图8给出了所提出的CACDU-Net模型在训练集和验证集上的损失变化曲线,以及DSC和IoU的训练和验证曲线。
图9显示了比较模型的接收者工作特征(ROC)曲线,以及在该数据集上获得的ROC曲线下面积(AUC)值。
从图中可以看出,所提出的cdu - net模型明显优于其他所有模型,其ROC曲线最接近左上角,整体精度最高。
不同模型在该数据集上实现的皮肤病变分割结果的视觉对比如图10所示。
表3给出了其他最先进的模型在同一数据集上获得的分割性能比较结果,其结果来自指定的文献来源(每个指标的最佳结果以粗体显示)。在该组中,CACDU-Net也展示了出色的结果,特别是基于图像分割中使用的两个核心评估指标(即IoU和DSC),根据这两个指标,它优于所有考虑的模型。更具体地说,亚军(ICL-Net和TransCeption分别)在IoU和DSC上的得分分别减少了0.0037分和0.0010分。此外,基于特异性和精度,所提出的cdu - net模型也优于所有考虑的模型,将亚军(TransCeption和M-CSAFN)分别落后0.0046和0.0081分。关于另一方cdu - net也表现良好,在准确性方面排名第二,在灵敏度方面排名第四。
图8。cdu - net在ISIC2018数据集上的训练和验证过程:(a)训练和验证损失曲线;(b)借据训练和验证曲线;(c) DSC训练和验证曲线。
2) ph2数据集
为了测试训练好的模型在新数据集上的分割性能,验证其泛化性在仅包含200张图像的PH2公共数据集上进行了鲁棒性实验。为此,提出的模型在ISIC2018训练集上进行训练,并在所有PH2图像上进行测试。表4给出了这些实验得到的分割性能比较结果(各指标上的最佳结果以粗体显示)。再次,所提出的CACDU-Net模型优于所有主流模型
基于两个主要评估指标,IoU和DSC的得分分别比亚军(SegFormer)高0.0115和0.0074分。此外,基于准确率,CACDU-Net也超越了所有主流模型,领先亚军(SegFormer) 0.0043分。根据使用的其他三个评估指标,所提出的CACDU-Net模型也表现相对较好,相应的在灵敏度上排名第二,在精度上排名第六,在特异性上排名第七。特别是,CACDU-Net在分割较大病变时表现更好,而U-Net通常无法分割整个病变区域,其形状与地面真值图像存在明显差异。这些结果表明,额外引入的模块确实提高了分割性能,并带来了良好的泛化能力。
图11显示了在该数据集上获得的比较模型的ROC曲线及其AUC值。从图中可以看出,所提出的cdu - net模型明显优于其他所有模型,其ROC曲线最接近左上角,整体精度最高。
不同模型在该数据集上实现的皮肤病变分割结果的视觉对比如图12所示。
(3)私有数据集
接下来,在私有数据集上进行实验。与ISIC2018数据集相比,该数据集包含
图像数量越少,训练时间越短,网络收敛速度越快。然而,该数据集中的病灶较浅且边缘模糊,使得分割更加困难。
表5给出了在该数据集上进行实验得到的分割性能比较结果(每个指标的最佳结果以粗体显示)。同样,所提出的CACDU-Net模型在两个核心评价指标上优于所有主流模型,在IoU和DSC上分别比亚军(MISSFormer)高0.0099和0.0072分。此外,基于准确率,CACDU-Net也领先所有主流模型0.0009分,领先亚军(MISSFormer)。根据使用的其他三个评估指标,所提出的cdu - net模型也表现相对较好,相应的在灵敏度上排名第二,在精度上排名第四,在特异性上排名第五。在这三个指标上没有达到最好的结果表明,所提出的模型在准确检测患病区域和排除非患病区域方面存在一定的缺陷和局限性。
图13给出了所提出的CACDU-Net模型在训练集和验证集上的损失变化曲线,以及DSC和IoU的训练和验证曲线。
图14显示了在该数据集上获得的比较模型的ROC曲线及其AUC值。从图中可以看出,所提出的cdu - net模型明显优于其他所有模型,其ROC曲线最接近左上角,整体精度最高。
不同模型在该数据集上实现的皮肤病变分割结果的视觉对比如图15所示,可以看出现有的主流模型可以有效地预测较大的病变,而CACDU-Net在预测多个较小的病变方面具有显著优势。
(4)消融研究
为了验证每个新设计的模块是否确实改善了网络性能,在ISIC2018数据集上以U-Net和DoubleUNet模型为基准进行了烧蚀研究实验。这些实验的结果如表6和表7所示(每个指标的最佳结果以粗体显示)。
考虑到图像中包含的不同形状、颜色和模糊边缘的病变所带来的挑战,逐步将设计的模块添加到U-Net和
与之前步骤中使用的基线和配置相比,与U-Net相比,DoubleU-Net在5个(6个)评估指标和与DoubleUNet相比的4个评估指标(包括主要的两个指标-IoU和DSC)上表现出了逐步改善。例如,三者的结合集成设计
模块进入原来的U-Net模型放弃了第一名的位置(“U-Net+ConvNeXt +ACASPP”配置),只有精度(仅0.0014点)。对于DoubleUNet,“DoubleU-Net+ConvNeXt +ACASPP”配置显示了最佳的精度结果;然而,对于敏感性,最好的结果是基线。
另一方面,这些实验也证明了双网的总体性能优于U-Net。
因此,它被首选为开发拟议的CACDU-Net模型的基础。
v 结论
快速准确的皮肤病变分割对于黑色素瘤和其他皮肤癌的后续治疗至关重要。
传统方法耗时耗力,严重依赖于大量参数的调优。
鉴于此,本文提出了一种新设计的u型编码器-解码器神经网络模型,称为CACDU-Net。首先,利用预训练的ConvNeXt-T网络作为编码部分,提供丰富的图像特征,使其在训练开始时获得较高的评价指标值,从而提高了网络的推理速度。其次,该模型使用专门设计的ConvNeXt注意卷积块(CACB)在通道和空间两个维度上提供注意信息,关注病灶本身,而不是体毛、气泡、血管和测量尺度等无关信息。此外,使用堆叠的u形架构完美地结合了多层特征,在获得全局上下文视图时捕获长期依赖关系,以帮助网络实现对皮肤病变的准确分割。第三,CACDU-Net利用新设计的ACASPP模块插入编码和解码部分之间,为网络提供多尺度的语义信息,有助于识别不同大小的病变。ACASPP在ASPP的基础上,增加了非对称结构的展开卷积来精细提取多尺度信息,增强了网络的鲁棒性。在损失函数方面,采用常用的二元交叉熵(BCE)和Dice相似系数(DSC)损失函数的加权和来定义新的损失函数,以解决正负样本数量极不均匀的问题。
在三个皮肤病变图像数据集上进行的实验结果证实,所提出的cdu - net模型在6个评价指标中至少有一半优于所有现有的主流模型,包括图像分割评价的两个主要指标,即IoU和DSC。此外,该模型显示出鲁棒性和对多干扰图像的强适应性,但代价是使用相对较大且计算成本较高的神经网络。
重要的是,本文提出的设计模块可以单独用于各种u型编解码网络,以提高其分割性能,这是该领域在实际应用中的另一个贡献。
在未来,我们计划探索以下研究路线。首先,由于Network1中ConvNeXt-T结构编码阶段的网络宽度(96,192,384,768),如果可以加入一些适当的操作,使其与U-Net网络结构充分结合,可以进一步提高分割精度。其次,我们将探索简单的后处理方法,如连接成分分析,约束优化,线性或非线性平滑,这也可能有助于提高网络性能。第三,我们将尝试将所提出的模型应用于其他医学成像相关任务,如肺分割、心脏分割、乳房分割和视网膜血管分割。我们认为,使用所提出的CACDU-Net模型来执行这些医学图像分割任务,并结合适当的预处理和后处理技术,可以获得更高级的分割结果。