TGDAUNet: Transformer and GCNN based dual-branch attention UNetfor medical image segmentation

TGDAUNet:基于Transformer和GCNN的医学图像分割双分支关注网络

摘要:

医学图像的准确、自动分割是临床诊断和分析的关键步骤。目前,随着Transformers模型在计算机视觉领域的成功应用,研究人员开始逐步探索Transformers在图像医学分割中的应用,特别是与具有编解码结构的卷积神经网络相结合,在医学分割领域取得了显著的成果。然而,大多数研究将transformer与cnn结合在一个单一尺度上,或者只处理最高级别的语义特征信息,而忽略了低级语义特征信息中丰富的位置信息。同时,对于图像中结构边界模糊、纹理异构等问题,现有的方法大多是简单地连接轮廓信息来获取目标的边界。然而,这些方法不能捕捉到目标的精确轮廓,并且忽略了边界和区域之间的潜在关系。在本文中,我们提出了TGDAUNet,它由cnn和transformer的双分支骨干网和并行关注机制组成,以实现医学图像中病灶的精确分割。首先,在多尺度上融合CNN主干分支的高层语义特征信息,高层和低层特征信息在位置和空间信息上互为补充;我们进一步利用极化自关注(PSA)模块减少多尺度造成的冗余信息的影响,以便更好地与从transformer主干分支提取的特征信息进行耦合,并在多尺度上建立全局上下文远程依赖关系。此外,我们还设计了反向图推理融合(RGF)模块和特征聚合(FA)模块,共同引导全局上下文。FA模块聚合高级语义特征信息,生成原始的全局预测分割图。RGF模块通过反向注意机制捕获原或次全局预测分割图中边界的非显著特征,建立图推理模块,探索边界和区域之间潜在的语义关系,进一步细化目标边界。最后,为了验证本文方法的有效性,我们将本文方法与目前流行的CVC-ClinicDB、Kvasir-SEG、ETIS、CVC-ColonDB、CVC-300数据集以及ISIC-2016和ISIC-2017皮肤癌分割数据集中的方法进行了比较。大量的实验结果表明,我们的方法优于目前流行的方法。源代码发布在https://github.com/sd-spf/TGDAUNet。

(  MF:多尺度融合模块

      PSA:极化自关注模块,减少多尺度造成的冗余影响,用于计算高层特征信息通道和空间上的权值

      FA:特征聚合模块,生成原始全局预测分割图

RGF:反向图推理融合模块,捕获特征图边界的非显著特征,探索边界和区域之间潜在的语义关系,进一步细化目标边界)

1 介绍

医学图像在医生的诊断和治疗过程中起着非常重要的作用。对于当前医学图像中的视觉任务,医学图像中病灶的准确分割是辅助临床医生进行临床诊断和分析的关键因素,如皮肤镜图像中的皮肤病灶分割[2,3,4],结肠镜图像中的息肉分割[5,6]。因此,建立一种高效、准确的医学图像分割方法,可以为医生提供准确的医学图像解读,减少人工处理的时间、成本和错误,跟踪多种疾病,为患者提供更好的治疗。医学图像分割的目的是从医学图像和其他图像中自动分割目标区域兴趣区域。然而,由于存在结构边界模糊、对比度低、纹理不均匀以及分割区域的不确定性,如图1所示,实现高精度的分割结果仍然是一个挑战。

图1:Kvasir-SEG[7]和ISIC2017[8]数据集中息肉和皮肤病变的大小、形状和颜色的示例图像

近年来,随着深研的蓬勃发展学习[9,10],特别是由于卷积神经网络(cnn)强大的特征提取能力,许多基于cnn的深度学习方法被应用到医学图像分割任务中,为医学图像分割带来了更高的性能[11,12,13,14]。

在由卷积层和下采样层组成的CNN框架中,较低的卷积层具有较小的感知场并提供更多的位置信息,较高的卷积层具有较宽的感知场并提供整个图像中分割目标的上下文信息。在此基础上,许多基于全卷积网络(full convolutional network, FCN)的分割网络被提出用于图像分割[15,16,17]。特别是在以U-Net[15]为代表的编解码结构中,通过编码器和解码器之间的跳过连接来补偿由于多次下采样而导致的精细特征信息的丢失,从而提高网络的性能。

这证明了编解码网络结构的优越性。

随后,许多基于u型结构的网络被提出,如Res-UNet[18]、Attention R2UNet[19]等。然而,从单一的阶段来看,多尺度的上下文特征信息没有得到有效的提取和利用。特别是在医学图像中,当目标区域与其周围环境非常相似时,多尺度的上下文特征信息非常重要,这样就可以同时考虑目标区域的周围环境,从而避免模糊的决策[20]。近年来,研究学者提出了一些多尺度信息集成方法,如PSPNet[21]、PoolNet[22]、DeepLabV3[23]和CE-Net[24]。该方法只处理高级特征信息,忽略了低级特征信息中丰富的位置信息。

尽管基于cnn的方法具有强大的特征提取能力,但由于卷积运算本身的限制,这些方法无法捕获远距离依赖信息。因此,对于纹理、大小和形状差异较大的目标区域,这些方法的性能往往较弱。为了克服这一限制,一些研究人员提出了基于cnn建立注意力机制[25,26,27]。此外,随着transformer在计算机视觉领域的成功应用,提供了额外的解决方案[28,29]。transformer作为一种序列到序列的预测体系结构,不需要任何卷积算子,仅依靠自关注机制提取图像特征信息,建立有效的远程依赖关系。transformer在各种视觉任务中也达到或超过了最先进的性能。虽然transformer擅长建模全局上下文,但它们在捕获细粒度细节方面存在局限性,特别是对于医学图像,在建模局部信息时缺乏空间诱导偏差。就数据量而言,基于transformer的网络结构只有在大规模数据集[28]训练时才有效。CNN架构可以很好地弥补这一限制。

最近,有一些研究将cnn和transformer结合起来应用于医学分割。TransUNet[30]和随后的[31,32,33]研究都使用cnn作为骨干网,transformer对顶层特征信息建立了远程依赖关系。然而,这些方法往往忽略了浅层网络中丰富的空间信息,仅在单一尺度上对上下文进行建模,忽略了跨尺度依赖性和一致性。此外,[34]认为仅仅一层或两层transformer不足以组合依赖于cnn的长距离卷积表示。

基于以上思路,本文基于目前流行的编解码网络结构,设计了一种新的医疗分割网络结构tgdaunet,如图1所示。TGDAUNet骨干网由cnn和transformer双支路组成。网络接受原始输入图像,使用CNN提取多尺度特征信息,transformer对全局上下文信息建模,建立远程依赖关系。[35]指出,与高级语义特征信息相比,低级语义特征信息对网络性能的贡献较小,占用大量的计算资源。因此,在平衡网络性能和计算资源之间,最大程度地保留底层语义特征信息中的位置信息。在双分支骨干网中,我们只使用倒数第二阶段的三个阶段。

在解码部分,基于侧输出残差学习的思想,设计了多尺度融合(MF)模块、特征聚合(FA)模块[5]和并行注意机制。MF模块通过上采样和下采样从CNN骨干网中提取多尺度高级特征信息,分三个阶段对输出的高级特征信息进行交互融合,然后对融合后的特征信息进行降维处理,以减少计算资源的损失。MF模块对融合后的多尺度特征信息进行融合,首先由FA模块对融合后的多尺度特征信息进行聚合,生成初始分割预测图,用于后续的上下文指导以及计算模型损失和优化模型。其次,注意机制主要关注高级特征信息的通道和空间,通过并行注意机制检测全局或局部特征信息,引导上下文,提炼边缘信息;

在注意机制中,它包含两个主要模块:一个是极化自注意(PSA)模块[36],用于计算高层特征信息通道和空间上的权值,减少冗余信息的影响,更好地耦合变压器主干分支提取的全局上下文特征信息,并建立建立多尺度远程依赖关系。其次,反向图推理融合(Reverse Graph-reasoning Fusion, RGF)模块与FA模块形成全局上下文向导,通过生成初始或二次分割的预测图,向上融合,细化区域和边缘细节,引导上下文,同时计算二次预测图的损失。RGF模块结合反向关注模块[37]和图推理模块[38],建立非显著边界特征与区域之间的图关系,探索边界与区域之间的潜在关系,实现跨域特征更新。

我们的主要贡献如下:本文提出了一种新的医学焦点分割框架TGAUNet,该框架采用双分支骨干网和并行关注机制来解决临床焦点分割问题。TGAUNet利用MF模块和PSA模块,通过CNN和transformer的双分支骨干网进一步提取全局和局部特征信息,减少冗余信息的影响,建立多尺度远距离依赖关系。FA模块对高级特征信息进行聚合融合后生成初始分割预测图,利用RGF建立全局上下文引导,建立边界不显著特征与区域之间的图推理关系,并对边缘信息进行细化。

2. 为了获得更详细的全局和局部特征信息,建立了多尺度融合(MF)模块。通过组合不同尺度的特征信息,高低特征信息相互作用,补充位置信息和空间信息,提高网络对复杂场景的理解能力。

3.设计反向图推理融合(RGF)模块。利用该阶段的特征区域和深度分割预测图中不显著的边界特征作为图节点,探索边界与区域之间的关系。然后进行反向注意力融合,进一步细化目标区域,引导语境。

4. 为了验证我们的网络的稳健性和通用性,我们将其与目前流行的方法在息肉数据集CVC-ClinicDB[39]、KvasirSEG[7]、CVC-ColonDB[40]、ETIS[41]、CVC-300数据集和皮肤病变数据集ISIC-2016[42]和ISIC-2017[8]数据集上进行了比较。实验结果表明,与现有的方法相比,我们的模型得到了显著的改进,进一步证实了我们模型的有效性。

本文的主要研究内容如下:在第2节中,我们将介绍医学图像分割的研究现状。在第3节中,我们将详细描述我们使用的方法。在第4节中,我们将与当前进行主客观对比实验

常用方法及消融实验。第五部分是论述与结论。

2. 相关工作

2.1 医学图像分割

近年来,基于深度学习的方法被广泛应用于医学图像分割领域[5,15,19,43],如息肉分割[5]、皮肤病变分割[44,17]。自UNet[15]提出以来,其编解码结构已成为医学分割中最流行的方法。UNet通过跳转连接在编码器和解码器之间组合低级特征信息。在接下来的几年里,许多基于u型架构的网络被应用到医疗分割领域。Res-UNet[18]借鉴残差结构的思想,在编解码的各个阶段添加残差结构,更有效地保留详细信息。unnet++[43]在跳跃连接的基础上增加了残余结构的密集连接,聚合多尺度特征信息。CPFNet[44]在各阶段的跳过连接处增加了全局金字塔引导(global pyramid guidance, GPG),为解码器提供多尺度全局上下文信息,并使用尺度感知金字塔融合(scale-aware pyramid fusion, SAPF)取代解码器的最后一层,动态融合高层特征中的多尺度上下文信息。然而,它们没有关注目标区域的特征信息,导致一些底层特征信息被过度提取,产生一些不必要的特征信息流。

随后,随着注意机制在自然图像上的成功应用,越来越多的注意机制被应用到医学分割领域,取得了令人满意的效果。注意R2UNet[19]在UNet的基础上增加残差和循环网络,避免网络太深而无法学习梯度,增加注意门来学习更集中的东西。MCGUNet[17]在解码器的上采样阶段增加了SE模块,并在跳接处增加了双向ConvLSTM (BConvLSTM),以自适应地重新校准信道特征。[25]提出了一种注意门(attention gates, AGs)策略,通过抑制不相关区域特征的激活来提高模型的灵敏度和准确性。[26]设计了一个非局部算子(non-local),可以集成到多个中间卷积层中,以建立远程依赖关系。同样,我们在空间维度和通道维度上重新分配多尺度融合特征信息的权重值,迫使模型专注于目标特征,减少冗余信息的影响,更好地耦合变压器主干分支的特征信息。

虽然这些方法在医学分割领域取得了很好的效果,但是它们忽略了医学图像中边界结构模糊的问题。为了解决这一问题,ET-NET[45]利用边缘引导模块(Edge Guidance Module, EGM)从底层特征中聚合边缘信息,指导医学分割任务。net[46]只使用第二层的底层特征来生成边缘特征映射,然后将其下采样并依次与高级特征融合。TMUNet[47]获得了Semi UNet模型输出的边界和特征张量,并通过注意机制将边界与特征张量简单融合。然而,这些方法没有考虑边界和区域之间潜在的语义关系。我们打算利用GCN来建立边界非显著特征与区域之间的潜在关系,减少边界分割的误差,提高分割性能。

2.2.Transformer在医学图像中的应用

近年来,随着变形金刚在计算机视觉领域的崭露头角,许多研究者将其引入到医学图像分割领域,并取得了良好的效果。TransUNet[30]是第一个将transformer应用于医疗分割领域的公司。在本研究中,UNet的编码器与Transformers相结合,制作了一个顶层特征的模型,而不是原始输入图像。TransFuse[31]将CNN与transformer并行连接,并设计了BiFusion融合模块,将CNN编码器的浅层网络特征与基于transformer提取的特征信息融合。TransAttUNet[33]在变压器自注意(TSA)和全局空间注意(GSA)的基础上构建了一个新的自我意识注意(SAA)模块,以有效地学习编码器特征之间的非局部相互作用。然而,在构建基于transformer的远程依赖关系时,忽略了其他尺度上更丰富的特征信息。

3 提出的方法

在本节中,我们将描述TGDAUNet网络的体系结构和组成模块的详细信息。首先描述了网络的总体结构,然后描述了并行注意机制,包括极化自注意(PSA)模块和由特征聚合(FA)模块和反向图推理融合(RGF)模块组成的全局上下文引导。

3.1.总体结构

我们设计的TGDAUNet网络架构如图2所示。在实验中,我们选择Res2Net[48]和swin - transformer[49]作为双分支骨干网,提取多尺度特征信息,建立远程依赖关系。

图2:提出的TGDAUNet网络结构。我们设计了双支路骨干网络——res2net和Swin Transformer作为特征提取器。多尺度融合(MF)模块基于从CNN骨干网中提取的高级特征信息进行多尺度融合。融合后的特征信息通过极化自关注(PSA)模块传递,减少冗余信息的影响。然后,利用Transformer骨干网提取的特征信息建立多尺度远程依赖关系。然后,反向图推理融合(RGF)为边界非重要特征和区域构建图推理,捕获边界线索并使用特征聚合(FA)模块构建全局上下文指导。

假设我们将RGB图像输入进行分割,表示为𝐹 ∈ 𝑅𝐻×𝑊×3。高级语义特征信息𝑓𝑖𝑟 ∈ 𝑅(𝐻2𝑖+1×𝑊2𝑖+1×𝐶𝑖),其中𝑖 ∈ [2, 4],以及从双分支骨干网络提取的𝑓𝑖𝑡 ∈ 𝑅(𝐻2𝑖+1×𝑊2𝑖+1×𝐶𝑖),其中𝑖 ∈ [2, 4]。多尺度融合(MF)模块接收来自CNN骨干分支的高级特征信息𝑓𝑖𝑟。通过上采样和下采样,每个阶段的特征信息与其他两个阶段的特征信息融合在一起,生成融合的高级语义特征信息𝑓𝑖𝑚。融合的特征张量𝑓𝑖𝑚经过1×1的卷积核卷积,以减少特征通道并减少计算成本。

降维后的特征张量𝑓𝑖𝑚,一方面,通过图中所示的FA(见图3),生成全局初始预测分割图𝑀1,RGF模块的并行注意机制对其进行上下文引导,进一步细化多尺度预测分割图。另一方面,PSA模块计算并重新分配特征张量𝑓𝑖𝑚的空间和通道权重值,进一步细化全局和局部特征信息。重新分配的加权特征张量𝑓𝑖𝑝与从Swin Transformer骨干分支提取的特征张量𝑓𝑖𝑡融合,以创建远程特征信息。

在多个尺度上存在依赖关系,从而实现全局上下文建模。FA模块和反向图推断融合模块RGF一起引导全局上下文。RGF逐层从初始全局预测分割图𝑀1中删除当前预测层的重要区域,捕获预测边界附近的残余细节,建立一个图推断模块,使用当前特征张量𝑓𝑖𝑝,对边界附近的非显著细节特征和区域进行建模,以捕获信息之间的关联。然后,不将其与当前特征张量相乘,以补充当前特征张量的边界信息。经过反向注意力计算,输出当前阶段的子预测分割图𝑀𝑖。经过三次并行注意力网络计算,输出最终的分割预测图𝑀𝑓。我们的整体网络结构如下所定义,其中𝑖 ∈ [2, 4]:

  1. 特征张量𝑓𝑖𝑐通过Res2Net操作进行处理。

  2. 特征张量𝑓𝑖𝑡通过Swin-Transformer形变操作进行处理。

  3. 特征张量𝑑𝑖𝑚通过MF操作进行处理。

  4. 特征张量𝑑𝑖𝑝通过PSA操作进行处理。

  5. 通过RGF操作,使用特征张量𝑓𝑖𝑝和𝑓𝑖𝑡,以及𝑀5−𝑖,生成最终的分割预测图𝑀𝑓。

3.2 CNN和transformer表示

如图2所示,我们提出的方法由两个编码流组成一个用于CNN路径-Res2Net,另一个用于Swin-Transformers。给定输入的RGB图像 𝐹 ∈ 𝑅𝐻×𝑊×3,其中 𝐻 和 𝑊 是空间维度,通道维度为3。CNN骨干分支应用一系列卷积块来提取图像的全局和局部上下文特征信息。然而,卷积操作的局限性限制了在像素级别建模长距离特征信息。为了解决这个问题,我们通过多尺度融合和PSA注意力模块,在从Swin-Transformers主干分支提取的特征张量𝑓𝑖𝑡之后,建立多尺度的长距离依赖关系。

CNN分支:基于Transformer的优势和[33]的研究,我们的Res2Net骨干分支仅考虑高级语义特征信息。为了更有效地将CNN和Transformer的特征进行耦合,我们融合了由Res2Net在多个尺度上提取的高级语义特征信息,使特征信息在垂直方向流动,丰富了每个阶段的空间和语义信息。然后,多尺度融合的特征信息被输入到偏极化自注意力模块(PSA)中,以进一步细化特征在空间和通道维度上的信息。随后,从Swin-Transformers提取的特征信息𝑓𝑖𝑝和𝑓𝑖𝑡在维度上均匀降维,以减少计算资源的损耗。最后,将相应阶段的𝑓𝑖𝑝和𝑓𝑖𝑡相加,创建多尺度的长程依赖关系,丰富全局上下文信息和局部信息。我们设计它是这样的。原因在于:(1)我们认为,多尺度融合后的特征信息虽然在每个尺度上都丰富了特征信息,但在一定程度上不可避免地混入了许多冗余信息,需要对这些冗余信息进行进一步处理,才能更有效地对变形量进行耦合;(2)我们认为仅在一个尺度上建立CNN与transformer的关系不足以发挥transformer的优势,因此我们建立了多尺度语境远程依赖关系。

transformer分支:

Swin-Transformers编码器的设计遵循传统的编码-解码架构。首先,输入的RGB图像 𝐹 ∈ 𝑅𝐻×𝑊×3 根据窗口大小 𝑤 被均匀划分为 𝑁 = 𝐻∕𝑤 × 𝑊∕𝑤 个块。在我们的实验中,我们将窗口大小 𝑤 设置为12。在分块划分后,每个块包含了 𝑁 = 𝐻∕𝑤 × 𝑊∕𝑤 × 3 维度的特征。然后,将划分后的特征维度通过线性嵌入(Linear Embedding)投影到任意维度 𝐶。

接下来,我们将划分后的特征张量输入到Swin Transformer,这是一个基于平移窗口的标准多头自注意力(MSA)模块,用于提取全局和局部特征信息。

Swin Transform主要包括常规基于窗口的多头自注意力机制模块W-MSA和基于平移窗口的多头自注意力机制模块SW-MSA,如图4所示。输入的特征张量首先通过LayerNorm(LN)层进行标准化和残差连接,然后输入到W-MSA和两层感知机(其中使用GELU作为全连接层的激活函数)。如果只使用W-MSA,那么相邻窗口之间的交互较少,全局信息获取不够全面。因此,在两个连续的Swin Transform模块中,我们依次使用W-MSA和SW-MSA。SW-MSA通过平移窗口增加了相邻窗口之间的信息交互,以捕获更多的全局信息。

其中,W-MSA和SW-MSA分别是基于常规窗口和平移窗口的多头自注意力机制模块。^ 𝑥_𝑙 和 ^ 𝑥_𝑙+1 分别表示通过W-MSA从窗口 𝑙 提取得到的特征。

MLP代表一个两层的多层感知机网络。 𝑥_𝑙 和 𝑥_𝑙+1 分别表示通过MLP从W-MSA和SW-MSA提取得到的特征。W-MSA和SW-MSA内的注意力计算如下:

其中,Q、K、V ∈ 𝑅^2×𝑑 分别表示查询矩阵、键值矩阵和值矩阵。M2表示窗口中的块数。d 表示维度 Q 和 K。B 来自一个较少参数化的偏差矩阵 𝐵 ∈ 𝑅^(2𝑀−1)×(2𝑀+1)。

3.3. 极化自关注模块PSA

为了进一步提取全局和局部特征信息,迫使模型集中注意力于重要特征,减少不必要特征对模型的干扰。多尺度融合的特征信息被输入到PSA模块[36]中,以获取目标区域的更多结构和详细信息,如图5所示。基于摄影中的极化滤波思想,PSA在通道和空间维度上不会过度压缩,以减少由维度压缩引起的信息损失,同时使用非线性函数对细粒度回归输出分布进行增强。

PSA模块首先导致特征在一个维度(例如,空间维度)完全崩溃,同时保持正交方向(例如,通道维度)的维度分辨率较高。为减少信息损失,首先在注意力模块中对最小的特征张量使用Softmax函数以增加注意力范围,然后使用Sigmoid函数对特征进行动态映射。PSA由两个分支组成,分别是通道注意力和空间注意力,我们采用并行方法来分配特征张量𝑓𝑖𝑚在空间和通道上的权重,以获得更好的特征表示。

空间注意力分支:空间注意力分支首先使用1×1卷积生成两个新的特征映射 𝑓𝑞𝑚 ∈ 𝑅𝐶∕2×𝐻×𝑊,𝑓𝑣𝑚 ∈ 𝑅𝐶∕2×𝐻×𝑊,从降维的多尺度融合特征信息 𝑓𝑖𝑚 ∈ 𝑅𝐶×𝐻×𝑊。然后使用GlobalPooling对 𝑓𝑞𝑚 进行压缩,但保持 𝑓𝑣𝑚 的空间维度不变。

𝐸𝐺𝑃 = 1 𝐻 × 𝑊 𝐻∑ 𝑖=1 𝑊∑ 𝑗=1 𝑓(∶, 𝑖, 𝑗) (11) 𝑓𝑞𝑚 = 𝐸𝐺𝑃(𝑓𝑞𝑚) (12) 其中,𝐸𝐺𝑃表示全局平均池化。

我们将池化后的特征张量 𝑓𝑞𝑚 ∈ 𝑅𝐶∕2×1×1 和 𝑓𝑣𝑚 重塑为 𝑓𝑞𝑚 ∈ 𝑅1×𝐶∕2,𝑓𝑣𝑚 ∈ 𝑅𝐶∕2×𝐻×𝑊。为了减少信息损失,使用Softmax函数增强 𝑓𝑞𝑚 中的信息。将 𝑓𝑞𝑚 与 𝑓𝑣𝑚 相乘,得到空间权重 𝑓𝑧𝑚 ∈ 𝑅1×𝐻×𝑊。将 𝑓𝑧𝑚 重塑为 𝑓𝑧𝑚 ∈ 𝑅1×𝐻×𝑊,然后进行归一化。最后,通过Hadamard Product操作,将空间维度中的权重重新分配到原始输入特征张量 𝑓𝑖𝑚 中,生成空间注意力特征图 𝑓𝑠𝑚 ∈ 𝑅𝐶×𝐻×𝑊。

𝑓𝑧𝑚 = 𝜎(𝐸𝑐(𝐸𝑆𝑀(𝐸𝑟𝑒𝑠ℎ𝑎𝑝𝑒(𝐸𝑐(𝑓𝑖𝑚))) × 𝐸𝑟𝑒𝑠ℎ𝑎𝑝𝑒(𝐸𝑐(𝑓𝑖𝑚)))) (13) 𝑓𝑠𝑚 = 𝑓𝑧𝑚⊙𝑆𝑓𝑖𝑚 (14) 其中,𝐸𝑐(·)表示1×1卷积操作。𝐸𝑆𝑀(·)表示SoftMax函数,𝐸𝑆𝑀(𝑓) = ∑𝑖=1^𝑁𝑝 exp(𝑥𝑖) / ∑𝑛=1^𝑁𝑝 exp(𝑥𝑛),×表示矩阵乘法。𝐸𝑟𝑒𝑠ℎ𝑎𝑝𝑒表示矩阵的维度替换。⊙𝑆表示空间维度中的Hadamard Product操作。𝜎(·)表示Sigmoid激活函数。

通道注意力分支:通道注意力分支同样首先使用1×1卷积生成两个新的特征映射,𝑓𝑞𝑚 ∈ 𝑅1×𝐻×𝑊 和 𝑓𝑣𝑚 ∈ 𝑅𝐶∕2×𝐻×𝑊,从经过降维的多尺度融合特征信息 𝑓𝑖𝑚 中提取。然后,将𝑓𝑞𝑚 和 𝑓𝑣𝑚 重塑为𝑓𝑞𝑚 ∈ 𝑅𝐻×𝑊 ×1×1,𝑓𝑣𝑚 ∈ 𝑅𝐶∕2×𝐻×𝑊。与空间注意力分支类似,使用Softmax函数增强 𝑓𝑞𝑚 中的信息以减少信息损失。将𝑓𝑞𝑚 和 𝑓𝑣𝑚 相乘,得到通道权重𝑓𝑧𝑚 ∈ 𝑅𝐶∕2×1×1。通过1×1卷积,将𝑓𝑧𝑚 恢复到原始输入特征维度,𝑓𝑧𝑚 ∈ 𝑅𝐶×1×1,然后进行归一化。最后,通过Hadamard Product操作,将通道维度中的权重重新分配到生成通道注意力特征图𝑓𝑐𝑚 ∈ 𝑅𝐶×𝐻×𝑊。

最后,将空间分支和通道分支的特征图相加以获得最终的特征张量𝑓𝑖𝑝。

3.4. 反向图推理融合模块

由高级特征信息聚合(FA)模块生成的原始显著性图仅估计息肉的一般位置,边缘没有明确定义。为了解决这个问题并更好地捕捉详细信息,基于反向注意[37]和图推理模块[38]的思想,我们设计了反向图推理模块RGF,与FA一起构建全局背景引导,为边界非显著特征和区域建立图关系,探索边界与区域之间的语义关系。

如图1所示,RGF首先从FA或深度RGF模块生成的原始或次级分割预测图𝑀𝑖中删除显著区域,以发现目标区域边界周围的残余非显葑特征。为了更好地捕获这些特征,当前提取的特征张量与边界非显著特征相关联,建立引导网络发现和补充的图推理,从而指导网络更好地理解和捕捉这些边界的细节特征。反过来,将这些边界信息与特征张量𝑓𝑖𝑝在当前阶段相乘,以补充边界信息,然后立即乘以逆向注意力来建立残余关系,进一步补充空间细节。

3.4.1. 反向注意力

为了捕获边界上的非显著特征,提出了一种擦除策略,即从初始预测分割图的最深层开始,逐层从侧输出的原始或次级预测分割图中去除当前预测的显著特征,以依次发现和补充目标区域和边界的非显著特征的细节。RGF模块接收了在此阶段传递的特征张量𝑓𝑖𝑝,与上采样后的原始或次级分割预测图𝑀𝑖一起。基于擦除策略,𝑀𝑖去除了当前预测图的显著区域,并根据公式18获得了边界上的非显著特征𝑆𝑖。

𝑆𝑖 = 1 - 𝜎(𝐸𝑈𝑝(𝑀𝑖)),其中𝐸𝑈𝑝表示双线性上采样。

3.4.2. 图推理模块

图推理模块如图6所示,由三个过程组成:轮廓引导投影、图推理和图形重新投影。原始输入特征张量𝑓𝑖𝑝通过Contour-Guided投影到顶点上,并与边界非显著特征𝑆𝑖相乘以创建图形。图形推理推理图形顶点之间的语义关系;图形重新投影将学习到的图形特征重新投影到像素网格上,将它们恢复到与原始输入特征张量相同的大小。

Contour-Guided投影:如图6所示,考虑到当前阶段的Contour-Guided Projection的特征张量𝑓𝑖𝑝 ∈ 𝑅( 𝐻2𝑖+1 × 𝑊2𝑖+1 ×𝐶𝑖)和深层原始或次级预测分割图的边界非显著特征𝑆𝑖 ∈ 𝑅( 𝐻2𝑖+1 × 𝑊2𝑖+1 ×1)。我们通过将特征张量𝑓𝑖𝑝投影到从边界非显著特征张量𝑆𝑖构建的图顶点来构建投影矩阵𝑃。具体来说,我们首先将张量𝑆𝑖减小到与特征张量𝑓𝑖𝑝相同的尺度,然后在两者上执行Hadamard乘法运算,将非显著特征与特征张量融合以赋予非显著特征更大的权重。接下来使用平均池化来获取顶点的锚点,将池化大小设置为S=6。每个锚点代表一个像素区域的中心。然后将这些锚点与张量𝑓𝑖𝑝相乘,学习像素与锚点之间的相似度,然后使用Softmax函数进行归一化,生成最终的投影矩阵𝑃 ∈ 𝑅( 𝐻2𝑖+1S × 𝑊2𝑖+1S )×( 𝐻2𝑖+1 × 𝑊2𝑖+1 )。投影矩阵𝑃可以定义为: 𝑃 = Softmax(max(𝐸𝐺𝑃 (𝑓𝑖𝑝 ⊙ 𝑆𝑖) ⊗ 𝐸𝑟𝑒𝑠ℎ𝑎𝑝𝑒(𝑓𝑖𝑝))) (19) 其中⊙表示Hadamard积。⊗表示矩阵相乘。

图形推理:

首先使用1×1卷积来降低当前特征张量𝑓𝑖𝑝的维度,然后将降维后的特征张量𝑓𝑖𝑝投影到图域中:𝑓𝑖𝐺 = 𝑃 ⊗ 𝐸𝑐(𝑓𝑖𝑝),其中𝑓𝑖𝐺 ∈ 𝑅( 𝐻2𝑖+1S × 𝑊2𝑖+1S ×𝐾)。这样,具有相似特征的像素可以聚合到相同的节点中,每个阶段对应图像的一个区域,建立了具有相似特征的像素与图像区域之间的关系。我们将K设置为32。

我们可以从𝑓𝑖𝐺顶点之间的权重连接中获得轮廓特征和区域特征之间的关系。然后,我们使用GCN学习顶点之间的权重信息,以推断潜在的语义关系。具体来说,我们将输入到一个GCN层,输出图推理关系,定义如下: ̂𝑓𝑖𝐺 = 𝐸𝑅((𝐼 − 𝐴)𝑓𝑖𝐺𝑊𝐺) (20) 其中𝐸𝑅表示激活函数。𝐼表示单位矩阵。𝐴表示𝑓𝑖𝐺的邻接矩阵。𝐴表示GCN的权重值。

图形映射:基于前两个过程,我们已经获得了顶点特征 ̂𝑓𝑖𝐺 ∈ 𝑅(𝐻2𝑖+1S × 𝑊2𝑖+1S ×𝐾)。

在GCN 推断之后,我们需要将 ̂𝑓𝑖𝐺 重新映射回初始的3D像素空间坐标。理论上,我们需要计算一个逆投影矩阵 𝑃^−1∈𝑅(𝐻2𝑖+1S×𝑊2𝑖+1S)×(𝐻2𝑖+1×𝑊2𝑖+1),将 ̂𝑓𝑖𝐺 逆投影到像素空间中。但是投影矩阵 𝑃 不是一个方阵,不容易计算。因此,我们将逆投影矩阵视为投影矩阵的转置矩阵 𝑃^𝑇𝑖𝑗。重新投影后,我们使用一个1×1卷积来恢复 𝑓𝑖𝑝 的通道特征的维度。然后,我们将原始输入特征张量 𝑓𝑖𝑝 与边界的图推理张量融合,以输出最终的边界细化特征图 𝐺𝑖。重新投影过程定义如下:

𝐺𝑖 = 𝑓𝑖𝑝 + 𝐸𝑐(𝑃^𝑇𝑖𝑗 ̂𝑓𝑖𝐺) (21)

随后,我们将边界细化特征图 𝐺𝑖 与原始输入特征张量 𝑓𝑖𝑝 相乘,使特征张量 𝑓𝑖𝑝 可以学习边界细化特征,然后再与逆注意力映射相乘,进一步细化边缘细节,以获得次级分割预测图。具体过程定义如下:

𝑀𝑖 = 𝑀𝑖−1 + 𝑓𝑖𝑝 ⊗ 𝐺𝑖 ⊗ 𝑆𝑖 (22)

3.5. 损失函数

在我们的实验中,我们使用了加权二进制交叉熵(WBCE)损失和加权交并比(WIoU)损失[50]来计算全局和局部约束。不同于通常在一般分割算法中使用的BCE和IOU损失,WBCE和WIOU根据像素区域的类别为每个像素分配一个权重值,突出了目标区域的重要性。我们在网络计算期间对原始和次级分割预测图 𝑀𝑖, 𝑖 ∈ [1, 3] 以及最终分割预测图 𝑀𝑓 进行监督学习。总损失定义如下:

𝐿𝑊𝐼𝑂𝑈 = 1 − 𝐻∑ 𝑖=1 𝑊∑ 𝑗=1 (𝑔𝑖𝑗 × 𝑓𝑖𝑗) × (1 + 𝜆𝜔𝑖𝑗) 𝐻∑ 𝑖=1 𝑊∑ 𝑗=1 (𝑔𝑖𝑗 + 𝑓𝑖𝑗 − 𝑔𝑖𝑗 × 𝑓𝑖𝑗) × (1 + 𝜆𝜔𝑖𝑗) (23)

𝐿𝑊𝐵𝐶𝐸 = − 𝐻∑ 𝑖=1 𝑊∑ 𝑗=1 (1 + 𝜆𝜔𝑖𝑗) 𝑣∑ 𝑖=1 𝜙(𝑔𝑖𝑗 = 𝑣) log 𝑃 (𝑓𝑖𝑗=𝑣|𝛼) 𝐻∑ 𝑖=1 𝑊∑ 𝑗=1 𝜆𝜔𝑖𝑗 (24)

𝐿 = 𝐿𝑊𝐼𝑂𝑈 (𝐺, 𝐸𝑈𝑃 (𝑀𝑖)) + 𝐿𝑊𝐼𝑂𝑈 (𝐺, 𝐸𝑈𝑃 (𝑀𝑖)) (25)

𝐿𝑡 = 𝐿(𝐺, 𝑀𝑓 ) + 3∑ 𝑖=1 𝐿𝑖(𝐺, 𝐸𝑈𝑃 (𝑀𝑖)) (26)

其中 𝜙(·) 表示用于校准像素类别的特定函数。 𝜆 是一个超参数。 𝑉校准。

在我们的实验中,类别被分为两类:背景和目标区域。 𝑔𝑖𝑗, 𝑓𝑖𝑗 分别表示位置 (𝑖, 𝑗) 处的像素值。 𝑃 (𝑓𝑖𝑗=𝑣|𝛼) 表示预测的概率值。 𝜔𝑖𝑗 是分配的权重值,0 < 𝜔𝑖𝑗 < 1。 𝜔𝑖𝑗 越接近1,中心像素值与周围区域的像素值变异性越大,该像素被认为越重要。相反,这个像素被视为普通像素点,不值得我们关注。𝜔𝑖𝑗 从中心像素与周围区域像素值之间的差异计算,使用以下公式:

𝜔𝑖𝑗 = |||||||| ∑ 𝑥,𝑦∈𝑔𝑖𝑗 𝑔𝑥𝑦 ∑ 𝑥,𝑦∈𝑔𝑖𝑗 1 − 𝑔𝑖𝑗 ||||||||

最后,我们提供算法的训练过程的详细信息,如图1所示。

图3:特性聚合(FA)模块。原始分割预测图是通过并行连接聚合高级特征得到的

图4:两个连续的旋转转换模块。基于剩余连接的思想,它主要由W-MSA和SW-MSA组成

图5:极化自关注(PSA)模块。

在特征张量通道和空间维度上并行重新分配权重值,以减少冗余特征的影响。

图6:图推理模块,包括轮廓引导投影(Contour-Guided Projection)、图推理(Graph Reasoning)和图重投影(Graph Reprojection)三个过程。轮廓引导投影构建边界非显著特征和当前相位特征张量的投影矩阵。图推理是基于一个投影矩阵,将当前阶段的特征张量投影到图域中进行图推理。

图形重投影将推断的图形关系再现投影到三维像素空间中。

4 实验

在本节中,我们将介绍我们实验的具体细节,数据集以及以目前流行的七种方法为基准的主客观对比实验。我们还进行了烧蚀实验来分析我们提出的模型的有效性。

4.1 数据集

4.1.1. 息肉分割

根据文献[31,51],我们选择了五个公开可用的数据集:CVC-ClinicDB[39]、KvasirSEG[7]、CVC-ColonDB[40]、ETIS[41]和CVC-300。

从CVC-ClinicDB和Kvasir-SEG数据集中,我们选择了1450张图像进行训练,分别从CVC-ClinicDB和Kvasir-SEG中保留了62张和100张图像作为测试集。此外,为了评估模型的泛化能力,我们在ETIS、CVC-ColonDB和CVC-300数据集上直接评估了使用上述方法建立的模型,这些数据集分别包含196、380和60张测试图像。

我们从Kvasir和CVC-ClinicDB数据集中随机选择图像进行训练,包括来自Kvasir数据集的900张图像和来自CVC-ClinicDB数据集的550张图像,总共1450张图像组成训练数据集。使用相同的方法对所有模型进行公平比较

数据集。对于基准数据集,我们选择了五个不同的数据集:CVC-ClinicDB [39], Kvasir-SEG [7], CVCColonDB [40], ETIS[41]和CVC-300数据集,与当前流行的模型进行比较,并验证我们的实验结果。

ETIS: ETIS数据集包含从34个结肠镜检查视频中截取的196个图像,分辨率为1225×996。图像中息肉的大小仅为0.11%-29.05%,是最小的,这也使得该数据集更具挑战性。

CVC-ClinicDB: CVC-ClinicDB数据集包含从25个结肠镜检查视频中截取的612张图像,图像大小为384×288。影像息肉大小为0.34% ~ 45.88%。

Kvasir- seg: Kvasir- seg数据集由1000个息肉图像组成,与其他几个数据集不同,Kvasir数据集图像的分辨率并不统一,由332×487到1920×1072组成。息肉的形状和大小差异很大,息肉的大小范围为0.79% ~ 62.13%。

CVC-ColonDB: CVC-ColonDB数据集由从15个结肠镜检查视频中剪切的380张图像组成,图像分辨率为574×500。图像息肉大小为0.30%-63.15%。

CVC-300: CVC-300是来自EndoScene[52]的测试集。测试数据集共包含60张图像。图像息肉大小为0.55%-18.42%。

4.1.2. 皮肤病变分割

皮肤病变分割的数据集来自公共挑战ISIC挑战,包括ISIC-2016[42]和ISIC-2017[8]。数据集中的图像来自不同国际领先临床中心的不同设备。ISIC2016包括900张训练图像和379张验证图像。皮肤损伤的大小范围为0.27%至99.54%,我们使用验证图像作为测试集来验证我们的模型。ISIC2017由2000张训练图像、150张验证图像和600张测试图像组成。皮损大小为0.32% ~ 95.22%。

为了提高模型的计算效率,我们将图像大小调整为384×384,将patch大小调整为12。同时保持平均宽高比。设计随机大小缩放,随机图像旋转和归一化的数据增强。

4.2. 培训设置和比较指标

我们的实验是在PyTorch 1.8.1框架下进行的,在NVIDIA TITAN RTX的单个块上进行训练和预测。在训练期间,使用SGD优化器,学习率设置为0.0001。默认批处理大小为4。为了得到最优的模型参数,对模型进行了300次训练。

为了验证我们的模型的优越性,我们选择了四个指标:骰子相似系数(Dice),交集超过联合(IOU),平衡精度(BAcc)和与目前流行的豪斯多夫距离(HD)方法进行比较。该指标的计算取自研究[53]提供的医学分割度量库,定义如下:

"TP" 代表真正例(True Positive)。"FP" 代表假正例(False Positive)。"FN" 代表假负例(False Negative)。"TP" 代表真正例。在Hausdorff距离度量中,"A" 和 "B" 分别表示真实图像和预测图像。"||𝑎−𝑏||" 表示距离函数,如欧几里德距离。"𝑁" 代表测试图像的数量。

4.3. 用最先进的方法进行实验

4.3.1. 息肉分割结果

基于上述内容,我们比较了我们的方法在五种不同的息肉数据集上与七种流行的方法。所有实验都使用相同的超参数,并且没有优化策略来确保公平性。

实验结果如表1、2所示。

从表中可以看出,我们提出的TGDAUNet在两个数据集上始终达到最先进的性能。在CVC-ClinicDB数据集上,与最流行的TMUNet相比,Dice高2.68%,IOU高3.19%,BAcc高0.97%,Haudo低0.3528;在Kvasir-SEG数据集上,Dice高0.63%,IOU高1.25%,Haudo低0.4947。

为了更清楚地证明TGDAUNet网络的优越性,我们将TGDAUNet在CVC-ClinicDB和KvasirSEG数据集上的定性结果与目前七种流行的方法进行了比较,如图7、8所示。我们从上述数据集中选择了具有代表性的图像。我们从上述数据集中选择了具有代表性的图像。从图7、图8可以更直观地看到,我们提出的TGDAUNet网络的分割结果更接近真实图像,对背景和边界模糊区域的分割更加准确。

此外,与其他方法相比,我们展示了TGDAUNet在CVC-ColonDB、ETIS和CVC-300数据集上的泛化能力,如表3所示。实验结果表明,TGDAUNet具有良好的泛化能力。在CVC-ColonDB数据集上,与最流行的TMUNet相比,Dice高3.65%,IOU高4.16%,BAcc高0.46%,Haudo低1.0133;在ETIS数据集上,Dice高出1.58%,IOU高出2.21%,BAcc高出2.27%,Haudo高出2.2241;在CVC-300数据集上,Dice上涨2.08%,IOU上涨4.5%,BAcc上涨0.12%,Haudo下跌0.6063。我们在图9、10和11中展示了三个数据集的定性结果的比较。

从表格和定性结果可以看出,对于小目标息肉的分割,目标往往与背景非常相似,特别是在ETIS数据集上,我们提出的方法总是能够最好地区分目标和背景。我们提出的MF模块的有效性也可以从这方面看出,它允许网络充分考虑背景因素,以避免模糊的确定。

此外,在5个数据集上给出的Haudo边界度量和定性结果表明,我们的网络比目前流行的方法对边界特征更敏感,可以准确地描绘目标区域。从这方面可以看出,我们提出的TGDAUNet网络中的RGF模块可以减少边界误差,提高分割精度。

4.3.2. 皮肤病灶分割结果

基于上述设置,我们将所提出的方法与ISIC2016和ISIC2017数据集进行了比较

目前流行的七种方法。实验结果如表4、表5所示。实验结果表明,我们提出的TGDAUNet在两个数据集上都能达到最先进的性能。在ISIC2016数据集上,与最流行的TMUNet相比,Dice高0.48%,IOU高0.72%,Haudo低0.1944;在ISIC2017数据集上,Dice高0.99%,IOU高1.2%,BAcc高0.46%,Haudo低0.1423。

为了更清楚地展示TGDAUNet在皮肤病变分割方面的优越性,我们将定性结果如图12、13所示。从图中可以看出,对于较小的目标区域,TGDAUNet的预测结果仍然是最好的,TGDAUNet的预测很好地捕获了远程依赖关系,减少了特征信息的损失。

最后,为了更直观地展示我们的方法与当前流行的方法之间的区别,我们在图14中给出了7个数据集的局部分割细节。从图14中可以很明显地看出,我们的方法始终如一地实现了精确的病灶定位和病灶边界的描绘,即使面对微小的病灶,也显示了其稳健的性能。

4.4. 消融实验

为了验证我们所提出的具有不同成分的TGDAUNet网络的有效性,利用控制变量构造了不同成分的模型

如表6所示。所有模型在相同的初始化下重新开始训练。

我们对息肉区进行了消融实验

以Kvasir-SEG和CVC-ColonDB数据集验证我们模块的有效性。实验结果如表7所示。此外,我们显示了单个组件模型的定性结果,如图15所示。

综上所述,我们设计的TGDAUNet模型优于其他方法的原因有:1)建立了一个多尺度的交互机制,高、低层特征信息交互,补充位置信息和空间信息。2)将多尺度融合的特征信息输入到PSA关注模块中,减少多尺度融合带来的冗余信息的影响,然后与变压器提取的特征信息相结合,建立多尺度长期依赖。3)反向图推理融合模块RGF通过图推理学习边界非显著特征与区域之间潜在的语义关系,进一步挖掘边界引线。RGF和FA模块共同构成了一个全局上下文指南,以提高分割的性能。

5. 总结

本文首先介绍了计算机视觉和图像处理在医学分割中的广泛应用和重要性,并分析了现有方法的优缺点。其次,详细介绍了现有的基于深度学习的医学图像分割方法以及与transformer相关的方法。然后,结合现有方法的优缺点和特定的领域知识,提出了一种基于Transformer和GCNN的双分支注意网络TGDAUNet,用于医学图像的病变区域分割。在TGDAUNet结构中,我们构建了双分支骨干网- cnn和transformer,以建立对高级语义特征信息的多尺度远程依赖关系。为了丰富特征信息,从CNN骨干网中提取的高级语义特征信息在多尺度上进行融合,特征信息与位置信息和空间信息相互补充。以便更好地耦合特征信息

在双分支骨干网中,对多尺度融合的特征信息进行了关注机制,以减少冗余信息带来的影响。FA模块和RGF模块共同构成了全局上下文指导。RGF模块通过图推理捕捉边界非显著特征与区域特征之间潜在的跨域语义关系,实现对边界细节的准确预测,提高分割性能。在实验部分,我们提出

方法主客观比较。结果表明,我们的方法达到了最佳的性能。

其次,采用控制变量方法,对网络中的各个模块进行烧蚀实验,验证了所提出的TGDAUNet网络的有效性和合理性。

在未来的工作中,首先,我们的方法只对息肉和皮肤病变进行了病灶分割,其他类型的医学图像数据(血管、视网膜和3D医学图像)尚未进行探索。之后,我们将进一步完善我们的方法,使我们的方法更加多样化,适合不同场景的临床诊断。第二,我们期待与医院合作,根据临床实际环境进一步优化我们的方法,设计出更快、更准确的方法。

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值