CACDU-Net:一种新的基于双u - net的图像皮肤损伤语义分割模型
摘要
皮肤病变分割是皮肤病学领域的一项重要任务,它有助于早期发现和诊断皮肤病。深度学习技术在实现准确的病灶分割方面显示出巨大的潜力。在这些技术的帮助下,病灶分割过程可以自动化,从而减少了人工操作和主观判断的影响。这有助于节省医疗专业人员的时间和减少他们的工作量,从而提高他们的工作效率,并使医疗资源得到更好的分配。为了更好地进行皮肤病灶分割,本文在DoubleU-Net模型的基础上提出了一种新的CACDUNet模型。为此,首先,该模型采用预训练的ConvNeXt-T作为编码骨干网络,提供丰富的图像特征;其次,cacu - net利用专门设计的ConvNeXt注意卷积块(CACB),将ConvNeXt块与多种注意机制相结合,对特征提取进行细化。第三,该模型在编码和解码部分之间采用了特别设计的非对称卷积亚历空间金字塔池(ACASPP)模块,利用不同尺度的亚历卷积捕获不同层次的上下文信息。在两个皮肤病变公共数据集ISIC2018和PH2以及一个私有数据集上,对比现有主流模型对所提模型的图像分割性能进行了评估。得到的结果表明,CACDU-Net取得了优异的效果,特别是基于两个用于评估图像分割的核心指标,即交集超过联合(Intersection over Union, IoU)和骰子相似系数(Dice similarity coefficient, DSC),它超越了所有其他模型。在PH2数据集上进行的实验表明,CACDU-Net具有较强的泛化能力。
1 介绍
皮肤癌主要有基底细胞癌(BCC)、鳞状细胞癌(SCC)和黑色素瘤三种类型[1]。皮肤癌的病因是复杂的,它经常发生在皮肤组织暴露在阳光下。当皮肤细胞失去生长控制时,它们会发展成皮肤癌,黑色素瘤是最致命的类型。在恶性黑色素瘤病例中,年轻人和中年人约占三分之二,而65岁以上的人则占三分之二
约占三分之一。2018年,估计黑色素瘤病例数为28.77万例,死亡6.07万例[2]。
近年来,皮肤癌的发病率持续上升。早期诊断和及时治疗是治愈黑色素瘤最有效的方法。然而,如果一个人被诊断为晚期,生存率只有15%。医学研究人员总结了几种基于皮肤镜下皮肤病变区域色素网络和条纹的颜色、形状、质地和视觉特征的黑色素瘤临床诊断方法。
这些方法包括不对称、边界、颜色和差分结构(ABCD)规则[3]、图案分析[4]、孟氏法[5]和七点特征法[6]。
然而,皮肤病变区域的复杂性,如体毛、边界、血管等,极大地阻碍了医务人员做出准确的判断。因此,皮肤病变的分割仍然是一项具有挑战性的任务。
目前,皮肤病变分割方法可分为两大类[7]、[8]:(i)传统的机器学习(ML)方法[9],如基于边缘的[10]、基于区域的[11]、基于阈值的[12]、[13]和基于聚类的分割方法[14]、[15];(ii)深度学习(DL)方法。传统的机器学习图像分割方法通过分析图像前景和背景的差异,从图像中的灰度、对比度、纹理等信息中手动设计特征进行分割。随着ML的兴起,纯手工提取特征的分割方法成为当时的主流方法。然而,这些方法可能会遗漏很多详细信息。此外,由于设计和提取特征的复杂性等局限性,ML技术在分割领域的进一步发展受到了限制。深度学习可以充分利用图像的内在信息,逐渐成为图像分割领域的首选技术。
随着卷积神经网络(convolutional neural networks, cnn)[16]在图像分割领域的快速发展,已经有专门的医学分割模型在现场和辅助诊断方面取得了很大的成功。在皮肤病变分割领域也取得了重大突破。Ghafoorian等[17]提出了一种多分支深度CNN (multi-branch deep CNN, DCNN)用于提取多尺度上下文特征。然而,他们的网络太浅,无法提取高分辨率的特征。随着批归一化(batch normalization, BN)[18]和残差结构[19]的发展,通过使网络深度加深,解决了网络退化和梯度消失问题。Y u等人[20]报道,深度架构可以提取高度判别特征用于皮肤病变分割,但这些网络因为关注局部上下文而忽略了全局特征,从而限制了深度架构在获得更准确结果方面的使用。
最近,注意力机制在深度学习中越来越流行,用于提取全局特征以实现准确的分割。在[21]中,注意机制与流行的U-Net架构[22]结合使用来选择
通过对不同大小、形状和其他特征的器官赋予不同的通道权重来判别特征。然而,单一注意机制的使用在复杂特征的病变中失败。
本文的动机是开发一种基于DoubleU-Net的皮肤损伤分割模型,该模型一方面利用多尺度特征提取模块提取高度判别的深层特征,另一方面利用注意机制对解码器上采样后提取的特征进行细化。这些努力的结果是一个新的CACDUNet模型(https://github.com/1194449282/CACDU-Net),该模型在ISIC2018[23]和PH2[24]公共数据集以及我们自己的私有数据集上进行的图像分割实验中表现出优异的性能。
本文的主要贡献体现在三个方面:1)通过采用两个U-Net网络(分别由编码器和解码器部分组成,称为Network1和Network2),改进了DoubleU-Net[25]网络架构。Network1的编码阶段采用了最新的ConvNeXt-T CNN[26],采用了大的7 × 7卷积,然后进行下采样,分四个阶段提取特征。
(1)在Network1的解码阶段和Network2的编解码阶段都采用了不同的注意机制,并结合标准卷积和ConvNeXt块进行特征提取。
2)采用特别设计的ConvNeXt注意卷积块(CACB),在通道和空间两个维度上提供注意信息,关注病灶本身,而不是体毛、气泡、血管、测量尺度等无关信息。此外,使用堆叠的u形架构完美地结合了多层次特征,在获得全局上下文视图时捕获长期依赖关系,以帮助网络实现对皮肤病变的准确分割。
3)在编码和解码部分之间采用新设计的ACASPP (Asymmetric Convolutional Atrous Spatial Pyramid Pooling)模块,为网络提供多尺度的语义信息,有助于识别不同大小的病灶。ACASPP将非对称卷积与展开卷积结合使用,不同形状的非对称卷积从不同角度吸收信息,展开卷积的不同展开速率捕获不同尺度的信息。
2 相关工作
A.医学图像分割
随着人工智能的发展,cnn逐渐被应用到医学图像分割中。完全
卷积网络(convolutional networks, FCN)[27]是图像分割领域的先驱,它能够通过端到端、像素到像素的训练来预测每个像素,从而解决了空间分辨率问题。2015年,Ronneberger等[22]基于FCN提出了一种新的端到端语义分割网络U-Net,适用于医学图像分割。U-Net与FCN的区别在于U-Net在上采样和下采样阶段使用相同层数的卷积运算,并通过跳过连接将下采样和上采样层连接起来。因此,下采样层提取的特征可以直接传输到上采样层,从而提高了网络的像素定位和分割精度。具体来说,U-Net是一个u形对称编码器-解码器网络,它使用跳过连接来合并高级和低级语义特征[54]。Zhou等[28]在U-Net框架的基础上提出了unet++,在编码器和解码器子网之间使用一系列嵌套的、密集的跳过路径连接,进一步降低了编码器和解码器之间的语义关系,在肝脏分割任务中获得了更好的性能。U-Net++用卷积操作密集地代替了U-Net的跳过连接中的裁剪和拼接操作,以获得更好的特征信息,弥补采样带来的信息损失[49]。受U-Net和ResNet[19]的启发,DoubleU-Net[25]在U-Net模型中增加了两个编码器和解码器,以提高分割精度。后来,由于每个编码和解码层都嵌套了U-Net,因此以这种方式命名的U2-Net[29]在一些评估指标上显示出了显著的改进。Google将自注意(Self-Attention, SA)从自然语言处理[30]移植到计算机视觉中,并提出了ViT[31]作为主干。由于其强大的特征提取能力,如何将ViT及其变体与U-Net结合以获得更好的结果一直是近年来研究人员关注的焦点[49]。如swan - unet[32]将Swin Transformer[33]与U-Net相结