CiT-Net:Convolutional Neural Networks Hand in Hand with Vision Transformersfor Medical Image Segmen

CiT-Net:卷积神经网络与视觉变换器相结合用于医学图像分割

摘要:卷积神经网络(CNNs)和Transformer的混合架构在医学图像分割中非常流行。然而,它面临两个挑战。首先,虽然CNNs分支可以使用普通卷积来捕获局部图像特征,但它不能实现自适应特征学习。其次,尽管Transformer分支可以捕捉全局特征,但它忽略了通道和跨维自关注,导致复杂内容图像的分割精度较低。为了应对这些挑战,我们提出了一种新的卷积神经网络与视觉转换器(CiT-Net)的混合架构,用于医学图像分割。我们的网络有两个优势。

首先,我们设计了一种动态可变形卷积,并将其应用于CNNs分支,克服了由于卷积核大小固定以及不同输入之间共享核参数的僵硬设计而导致的特征提取能力较弱的问题。其次,我们设计了一个移位窗口自适应互补注意力模块和一个紧凑的卷积投影。我们将它们应用于Transformer分支,以了解医学图像的跨维度长期依赖性。实验结果表明,我们的CiT-Net比流行的SOTA方法提供了更好的医学图像分割结果。此外,我们的CiT-Net需要更低的参数和更少的计算成本,并且不依赖于预训练。

(不懂的词:

自适应特征学习:模型自动学习适应任务的特征表示,而无需手动设计特征提取方法,比如,CNN模型通过反向传播过程中的权重更新自适应地学习了图像中的特征,而不需要手动设计特征提取器。

通道自注意力:通道自注意力(Channel Self-Attention)是一种注意力机制,通常用于深度学习模型中,以帮助模型更好地处理输入数据的不同特征通道(通常也称为特征映射或特征图)。通道自注意力允许模型在学习期间自动决定哪些特征通道对于任务更重要,以便提高模型性能。

通道自注意力与传统的自注意力机制(例如在Transformer中使用的注意力机制)有所不同。传统的自注意力机制是在序列或图像中的不同位置之间计算注意力权重,以确定它们之间的依赖关系。而通道自注意力是在特征通道之间计算注意力权重,以确定不同通道之间的依赖关系。

"跨维自注意力"(Cross-Dimensional Self-Attention)是一种注意力机制,通常用于深度学习模型中,以处理输入数据的不同维度之间的关系。这个注意力机制允许模型在学习期间自动捕捉和建模不同维度(通常是特征或通道)之间的依赖关系,以更好地理解输入数据并提高性能。

“动态可变形卷积”:动态可变形卷积(Dynamic Convolution)是一种卷积神经网络(CNN)中的高级卷积操作,它允许卷积核在每个位置上动态地调整其形状以适应输入数据的局部结构。这种操作旨在改进CNN在处理变化复杂性和不规则形状的图像或特征时的性能。通常情况下,标准的卷积操作使用固定形状的卷积核(通常是矩形或正方形),在输入数据的不同位置上滑动并计算加权和。然而,对于某些图像,特别是包含物体的图像,不同位置的物体可能有不同的形状,因此传统的固定形状卷积核可能无法捕捉到这些局部结构。动态可变形卷积引入了可变形卷积核,这些卷积核可以在每个位置上自适应地调整其形状。这样,模型可以根据输入数据的局部结构动态地改变卷积核的形状,以更好地捕捉特定位置的特征。这些可变形卷积核的形状通常是通过学习来获得的,因此模型可以根据任务和数据自动调整卷积核的形状。(简而言之,根据输入图像卷积过程中动态调整卷积核的大小形状)

自适应互补注意力(Adaptive Complementary Attention):这是一种注意力机制,它允许模型自动学习输入序列或特征之间的依赖关系。它通过计算每个位置的注意力权重,以确定哪些位置对于当前位置的表示是最重要的。这有助于模型更好地理解输入数据的结构和关系。

移位窗口(Shifted Window):移位窗口是在自适应互补注意力中的一个概念,它引入了一种滑动窗口的机制,用于限制模型在局部区域内计算注意力。这个滑动窗口可以帮助模型集中注意力在与当前位置相关的局部信息上,而不是整个输入序列或特征。这有助于处理序列中的局部结构和减少计算复杂性。

移位窗口自适应互补注意力的核心思想是在自注意力机制中引入窗口限制,并通过自适应学习来调整窗口的大小和位置,以适应不同位置和任务的需要。这种机制在处理长序列数据或具有复杂结构的数据时可能特别有用,因为它可以改善模型的建模能力,同时保持计算效率。(我的理解:移位窗口自适应互补注意力是在swin transformer的SW-MSA的基础上规定注意力的窗口是自适应的

变形偏移:变形偏移的核心思想是允许卷积核在每个位置上动态地调整其位置以适应输入数据的局部结构。通过引入偏移场(offset field)来实现的,该偏移场指定了每个卷积核在每个位置上的偏移量。卷积核根据这些偏移量动态地调整其位置,以适应输入数据的局部结构。这使得模型能够更好地捕捉不同位置的特征。

1 介绍

医学图像分割是指将医学图像分割成具有独特特性的几个特定区域。医学图像分割结果不仅可以实现对人体区域的异常检测,而且可以用于指导临床医生。因此,精确的医学图像分割已成为计算机辅助诊断和治疗、患者病情分析、图像引导的关键组成部分手术、组织和器官重建以及治疗计划。与常见的RGB图像相比,医学图像通常存在高密度噪声、低对比度和边缘模糊等问题。因此,如何从医学图像中快速准确地分割出特定的人体器官和病变,一直是智能医学领域的巨大挑战。

近年来,随着计算机硬件资源的快速发展,研究人员在大量实验的基础上,不断开发出许多新的医学图像自动分割算法。现有的医学图像分割算法可分为两类:基于卷积神经网络(CNNs)和基于Transformer网络。

早期的传统医学图像分割算法是基于医学专家利用专业知识设计的手动特征[Suetens,2017]。这些方法有很强的数学基础和理论支持,但这些算法对人体不同器官或病变的泛化能力较差。后来,受全卷积网络(FCN)[Long等人,2015]和编码器-解码器的启发,Ronnebreger等人设计了UNet[Roneberger等人,2015]network,该网络首次应用于医学图像分割。该网络提出后,其对称的U型编解码器结构受到了广泛关注。同时,由于U-Net网络的参数数量少,分割效果好,深度学习在医学图像分割方面取得了突破。然后在U-Net网络的基础上,启发了一系列改进的医学图像分割网络,如2D U-Net++[Zhou et al.,2018]、ResDO UNet[Liu et al.,2023]、SGU-Net[Lei et al.,March 2023]、2.5D RIU-Net[Lv et al.,2022]、3D UNet[C?ic?ek et al.,2016]、V-Net[Milletari et al.,2016]等。其中,Alom et al.结合UNet设计了R2U-Net[Alom et al.,2018],ResNet[Song等人,2020]和递归神经网络(RCNN)[Girshick等人,2014]。然后,Gu等人将动态卷积[Chen等人,2020]引入U-Net提出的CA-Net[Gu等人,2020]。在U-Net的基础上,杨等人参考残差连接和可变形卷积的思想,提出了DCU-Net〔杨等人,2022〕。雷等人[Lei et al,2022]提出了一种基于对抗性一致性学习和动态的网络ASNet。

神经网络在医学图像分割领域的快速发展很大程度上归功于卷积运算的尺度不变性和归纳偏差。尽管这种固定的感受野提高了细胞神经网络的计算效率,但它限制了其捕捉医学图像中远处像素之间关系的能力,并且缺乏对医学图像进行长距离建模的能力。

针对细胞神经网络在获取医学图像全局特征方面的不足,学者们提出了一种Transformer架构。2017年,V aswani等人[V aswany等人,2017]提出了第一个变压器网络。由于其独特的结构,Transformer能够处理不定长度的输入,建立长期依赖性建模,并捕获全局信息。凭借Transformer在NLP领域的优异性能,ViT[Dosovitskiy et al,2020]首次将Transformer应用于图像处理领域。随后,Chen等人提出了TransUNet[Chen et al,2021],开创了医学图像分割领域的一个新时期Transformer。V alanarasu等人提出了与门控机制相结合的MedT[V alanaratsu等人,2021]。Cao等人提出了一种用于医学图像分割的纯Transformer网络Swin-Unet[Cao等人,2021],并结合Swin-Transformer中的移位窗口多头自注意(SW-MSA)[Liu等人,2021b]。随后,王等人结合边缘检测思想[Sun等人,2022]设计了用于皮肤镜图像分割的BA-T[Wang等人,2021a]网络。Hatamizadeh等人提出了用于3D脑肿瘤分割的Swin UNETR[Tang等人,2022]网络。王等人提出了将渠道注意力与Transformer相结合UCTransNet[Wang et al,2022]网络。

这些方法大致可以分为基于纯Transformer架构和基于CNNs和Transformer的混合架构。纯Transformer网络实现了基于自关注的远程依赖建模。然而,由于变压器本身缺乏电感偏置,变压器无法广泛用于医学图像等小规模数据集[Shamshad等人,2022]。同时,Transformer架构容易忽略详细的局部特征,这降低了医学图像中具有大规模变化的小病变或对象的背景和前景之间的可分性。

CNNs和Transformer的混合架构利用CNNs和Transformer的互补优势,实现了医学图像的局部和全局信息建模,从而实现了更好的医学图像分割效果[Azad et al.,2022]。然而,这种混合架构仍然存在以下两个问题。首先,它在建模局部特征时忽略了器官变形和病变不规则的问题,导致局部特征表达较弱。其次,在对全局特征进行建模时,忽略了特征图空间与通道之间的相关性,导致自关注的表达不足。为了解决上述问题,我们的主要贡献如下:

提出了一种新的动态可变形卷积(DDConv)。通过任务自适应学习,DDConv可以灵活地改变卷积本身的权重系数和变形偏移量。DDConv可以克服香草卷积及其变体卷积常见的感受野固定和卷积核参数共享问题,如Atrous卷积和对合等。提高了对医学图像中具有大规模变化的微小病变和目标的感知能力。

提出了一种新的(移位)窗口自适应互补注意模块((S)W-ACAM)。(S) W-ACAM通过权重系数自适应学习的四个并行分支实现医学图像的跨维全局建模。与目前流行的注意机制(如CBAM和NonLocal)相比,(S)W-ACAM完全弥补了传统注意机制在空间与通道跨维度关系建模方面的不足。它可以捕捉医学图像中的跨维长距离相关特征,增强医学图像中分割对象与背景之间的可分性。

提出了一种基于动态自适应CNN和跨维特征融合transformer的医学图像分割并行网络结构,称为CiT-Net。与目前流行的CNNs和Transformer的混合架构相比,CiT-Net可以最大限度地保留医学图像中的局部和全局特征。值得注意的是,CiT-Net不仅放弃了预训练,而且参数更少,计算成本更低,分别为11.58M和4.53GFLOP。

与之前的普通卷积[Roneberger et al.,2015]、动态卷积[Chen et al.,2020][Li et al.,2021]和可变形卷积[Dai et al.,2017]相比,我们的DDConv不仅可以根据医学图像任务自适应地改变卷积的权重系数和变形偏移,而且还能够更好地适应医学图像中器官形状和小病变的大规模变化,此外,它还可以提高分割网络的局部特征表达能力。

与现有Transformer架构中的自注意机制[Cao et al,2021][Wang et al,2021 1a]相比,我们的(S)W-ACAM需要更少的参数和更少的计算成本,同时能够捕捉医学图像中的全局跨维长程依赖性,并提高分割网络的全局特征表达能力。我们的CiT-Net不需要大量的标记数据进行预训练,但它可以最大限度地保留医学图像中的局部细节和全局语义信息。它在皮肤镜图像和肝脏数据集上都取得了最佳的分割性能。

2 方法

2.1 总体架构

局部和全局特征的融合显然有助于改进医学图像分割。细胞神经网络捕获通过卷积运算和层次特征表示实现医学图像中的局部特征。相比之下,Transformer网络通过级联的自注意机制和具有上下文交互的矩阵运算来实现医学图像中全局特征的提取。

为了充分利用医学图像中的局部细节和全局语义特征,我们设计了一个并行交互网络结构CiT-Net。网络的总体架构如图1(a)所示。CiT-Net充分考虑了CNNs和Transformer的互补特性。在前向传播过程中,CiT-Net不断地将CNN提取的局部细节馈送到Transformer分支的解码器。类似地,CiT-Net还将Transformer分支捕获的全局长程关系馈送到CNNs分支的解码器。显然,所提出的CiT-Net比纯CNN或Transformer网络提供了更好的局部和全局特征表示,在医学图像分割领域显示出巨大的潜力。

图1 (a) CiT Net的体系结构。CiT-Net由动态自适应细胞神经网络和跨维特征融合转换器之间的双分支交互组成。CNNs分支中的DDConv可以自适应地改变卷积本身的权重系数和变形偏移,提高了医学图像中不规则对象的分割精度。Transformer分支中的(S)W-ACAM可以捕捉医学图像中的跨维长程依赖性,提高医学图像中分割对象和背景的可分性。轻量级感知器模块(LPM)通过使用Ghost策略大大减少了原始Transformer网络的参数和计算量。(b) 两个连续的变压器块。W-ACAM和SW-ACAM是具有移位窗口和紧凑卷积投影配置的跨维自注意模块。(类似于transformer模块)

具体而言,CiT-Net由补丁嵌入模型、动态自适应CNNs分支、跨维融合Transformer分支和特征融合模块组成。其中,动态自适应CNNs分支和跨维融合Transformer分支分别遵循U-Net和Swin-Unet的设计。动态自适应CNN分支由七个主要阶段组成。通过在每个阶段使用权重系数和变形偏移自适应DDConv,分割网络可以更好地理解医学图像的局部语义特征,更好地感知人体器官或病变的细微变化,提高提取医学图像中多尺度变化目标的能力。同样,跨维融合transformer分支也由七个主要阶段组成通过在每个阶段使用(S)W-ACAM注意力,如图1(b)所示,分割网络可以更好地理解通过医学图像的全局依赖性来捕捉不同器官之间的位置信息,提高医学图像中分割对象与背景的可分性。

尽管我们的CiT-Net可以有效地提高医学图像的特征表示,但由于双分支结构,它需要大量的训练数据和网络参数。由于传统的变压器网络包含大量的MLP层,这不仅加重了网络的训练负担,而且使模型参数的数量急剧增加,导致模型的训练速度缓慢。受Ghost网络思想的启发[Han et al,2020],我们重新设计了原始Transformer中的MLP层,并提出了一种轻量级感知器模块(LPM)。LPM可以帮助我们的CiT-Net不仅获得比MLP更好的医学图像分割结果,而且大大降低了原始Transformer块的参数和计算复杂度,即使Transformer也可以在没有大量标记数据训练的情况下获得良好的结果。值得一提的是,双分支结构涉及相互对称的编码器和解码器,因此并行交互网络结构可以最大限度地保留医学图像中的局部特征和全局特征。

2.2动态可变形卷积

普通卷积具有空间不变性和通道特异性,因此在处理不同的空间位置时,它改变不同视觉模式的能力有限。同时,由于感受野的限制,普通卷积很难提取小目标或边缘模糊目标的特征。因此,普通卷积不可避免地对复杂的医学图像具有较差的适应性和较弱的泛化能力。尽管已经存在的可变形卷积[Dai et al,2017]和动态卷积[Chen et al,2020][Li et al,2021]在一定程度上优于普通卷积,在处理医学图像分割时,它们仍然具有不满意的平衡网络性能和大小的能力。

为了解决当前卷积运算的不足,本文提出了一种新的卷积策略DDConv,如图2所示。可以看出,DDConv可以根据具体任务和数据分布自适应地学习核变形偏移和权重系数,从而实现卷积核的形状和值的变化。它可以有效地解决医学图像分割中数据分布差异大、目标变形大的问题。此外,DDConv是即插即用的,可以嵌入任何网络结构中。

图2  所提出的DDConv的模块。与目前流行的卷积策略相比,DDConv可以在训练过程中动态调整卷积本身的权重系数和变形偏移量,有利于医学图像中不规则目标的特征捕获和提取。α和β表示DDConv在不同状态下的不同权值。

DDConv中卷积核的形状变化是基于变形偏移的网络学习。分割网络首先使用平方卷积核S对输入特征图X进行采样,然后使用权重矩阵M进行加权和。平方卷积核S确定感受野的范围,例如,3×3卷积核可以表示为:

则坐标φn处的输出特征图Y可以表示为:

当变形偏移△φm={m=1,2,3,…N}被引入到权重矩阵m中,N是S的总长度。因此,方程(2)可以表示为:

通过网络学习,最终可以获得与输入特征图大小相同的偏移矩阵,矩阵维数是输入特征图的两倍。

为了证明DDConv的卷积核是动态的,我们首先给出了香草卷积的输出特征图:

其中σ是激活函数,W是卷积核权重矩阵,y是输出特征图。相比之下,DDConv的特征图的输出为:

其中,n是权重系数的数量,αn是具有可学习参数的权重系数,并且y是DDConv生成的输出特征图。DDConv通过在执行卷积运算之前根据相应的权重系数线性组合不同的权重矩阵来实现卷积核权重的动态调整。

根据以上分析,我们可以看到DDConv通过将卷积核变形偏移量和卷积核权重系数相结合,以最少的计算次数实现了对卷积核形状和权重的动态调整。与直接增加卷积核的数量和大小相比,DDConv更简单、更高效。所提出的DDConv不仅解决了固定大小卷积核自适应特征提取能力差的问题,而且克服了不同输入共享相同卷积核参数的缺陷。因此,我们的DDConv可以用于提高医学图像中边缘模糊的小目标和大目标的分割精度。

2.3 移位窗口自适应补充注意力模块

自注意机制是Transformer网络的核心计算单元,它利用矩阵运算实现了特征图的长距离依赖性捕获。然而,自注意机制只考虑了空间维度上的依赖性,而没有考虑空间和渠道之间的跨维度依赖性[Hong et al.,2021]。因此,在处理低对比度和高密度噪声的医学图像分割时,自注意机制容易将分割目标与背景混淆,导致分割结果不佳。

为了解决上述问题,我们提出了一种新的跨维自注意模块,称为(S)WACAM。如图3所示,(S)W-ACAM有四个平行分支,顶部两个分支是传统的双注意力模块[Liu et al.,2021a],底部

两个分支是跨维度的注意力模块。与空间自注意、通道自注意和双重自注意等流行的自注意模块相比,我们提出的(S)W-ACAM不仅可以充分提取空间和通道的长程依赖性,还可以捕捉空间和通道之间的跨维长程依赖关系。这四个分支相互补充,提供了更丰富的长程依赖关系,增强了前景和背景之间的可分性,从而提高了医学图像的分割结果。

图3:拟议的(S)W-ACAM模块。与传统的自注意不同,(S)W-ACAM具有空间和通道注意的优势,还可以捕捉空间和通道之间的长距离相关性特征。通过移位窗口操作,图像的空间分辨率显著降低,并且通过紧凑卷积投影操作,也显著降低了图像的通道维度。因此,降低了网络的总体计算成本和复杂性。λ1、λ2、λ3和λ4是可学习的权重参数。

标准Transformer架构[Dosovitskiy等人,2020]使用全局自注意方法来计算一个令牌和所有其他令牌之间的关系。这种计算方法很复杂,尤其是在面临高分辨率和密集的预测任务(如医学图像)时,计算成本将呈指数级增长。为了提高计算效率,我们使用了类似于Swin Transformer[Liu et al,2021b]中的移位窗口计算方法,该方法只计算局部窗口中的自注意。然而,面对我们的(S)W-ACAM四分支模块,使用移位窗口方法来计算自注意并不能降低模块的整体计算复杂度。因此,我们还设计了紧凑卷积投影。首先,我们通过移位窗口操作减小医学图像的局部大小,然后通过紧凑卷积投影压缩特征图的通道维度,最后计算自注意。值得一提的是,这种方法不仅可以更好地捕捉医学图像的全局高维信息,而且可以显著降低模块的计算成本。假设一个图像包含h×w个窗口,每个窗口大小为M×M,则(S)w-ACAM、原始Transformer中的全局MSA和(S)w-MSA的复杂性在Swin transformer中的比较如下:

如果每个公式的前一项是补丁数量hw的二次函数,则当M固定时(默认为7),后一项是线性的。与MSA和(S)WMSA相比,(S)W-ACAM的计算成本较小。

在(S)W-ACAM的四个并行分支中,两个分支分别用于捕获信道相关性和空间相关性,其余两个分支用于捕获信道维度C与空间维度H之间的相关性,反之亦然(信道维度C和空间维度W之间)。采用移位窗口划分方法后,如图2(b)所示,连续变压器块的计算过程如下:

其中,T^l和Tl分别表示(S)WACAM和LPM的输出特征。W-ACAM表示窗口自适应互补注意力,SW-ACAM表示移位窗口自适应互补注意,LPM表示轻量级感知器模块。对于每个分支的具体注意力计算过程,我们在Swin Transformer中遵循相同的原理,如下所示:

其中,相对位置偏差B∈RM^2×M^2,Q,K,V∈R^M ^2×C/8分别是查询矩阵、键矩阵和值矩阵。C8表示查询/键的维度,M2表示补丁的数量。

在计算出四个平行注意力分支Out1、Out2、Out3和Out4后,最终的特征融合输出为:

其中λ1、λ2、λ3和λ4是可学习的参数,通过分割网络的反向传播过程,可以自适应控制特定分割任务中每个注意力分支对空间和通道信息的重要性。

与其他自注意机制不同,本文中的(S)WACAM可以充分捕捉空间和通道之间的相关性,并合理利用医学图像的上下文信息来实现长程依赖建模。由于我们的(S)W-ACAM有效地克服了传统的自注意只关注图像的空间自注意而忽略通道和跨维自注意的缺陷的更好的特征表示,它实现了在大噪声、低对比度和复杂背景下的最佳图像。

2.4 体系结构变体

我们已经建立了一个CiT-Net-T作为基础网络,模型大小为11.58 M,计算能力为4.53 GFLOP。

此外,我们构建了CiT-Net-B网络,以与CvT[Wu等人,2021]和PVT[Wang等人,2021b]等最新网络进行公平比较。窗口大小设置为7,输入图像大小为224×224。其他网络参数设置如下:

CiT-Net-T:层数={2,2,6,6,2,2},H={3,6,12,24,6,3},D=96,

CiT-Net-B:层数={2,2,18,2,18,2},H={4,8,16,36,8,4},D=96,

D表示进入动态自适应CNNs分支和跨维融合Transformer分支的第一层时的图像通道数,层数表示每个阶段使用的Transformer块数,H表示自关注中的多个头数。

3 实验和结果

3.1 数据集

我们在国际生物医学成像研讨会(ISBI)的皮肤病变分割数据集ISIC2018和医学图像计算和计算机辅助干预学会(MICCAI)的上进行了实验肝肿瘤分割挑战数据集(LiTS)。ISIC2018包含2594张用于训练的皮肤镜图像,但测试集的真实图像尚未发布,因此我们对训练集进行了五次交叉验证,以进行公平比较。LiTS包含131个3D CT肝脏扫描,其中100个扫描用于训练,其余31个扫描用于测试。此外,为了提高效率,根据经验将所有图像的大小调整为224×224。

3.2 实施细节

所有网络均在NVIDIA GeForce RTX 3090 24GB和PyTorch 1.7上实现。我们使用初始学习率为0.001的Adam来优化网络。当验证集的损失没有减少10个时期时,学习率减半。我们在实验中使用均方误差损失(MSE)和骰子损失作为损失函数。

3.3 评估和结果

在本文中,我们选择了主流的医学图像分割网络U-Net[Roneberger等人,2015]、Attention Unet[Oktay等人,2018]、Swin Unet[Cao等人,2021]、PVT[Wang等人,2021b]、CrossForm[Wang et al,2021c]和所提出的CiT-Net,对ISIC2018和LiTS这两个不同模式的数据集进行了全面的比较。

在ISIC2018数据集的实验中,我们使用Dice(DI)、Jaccard(JA)、Sensitivity(SE)、Accuracy(AC)和Specificity(SP)五个指标对主流医学图像分割网络进行了全面评估。

表1显示了对ISIC2018数据集中所提出的CiT-Net和当前主流CNNs和Transformer网络的结果的定量分析。根据实验结果,我们可以得出结论,我们的CiT-Net具有最小的参数数量和最低的计算成本,并且可以在不添加预训练的情况下对皮肤镜图像获得最佳的分割效果。此外,我们的CiT-Net-T网络只有11.58M的参数和4.53GFLOP的计算成本,但仍然达到了第二好的分割效果。我们的CiT-Net-B网络,BA T、CvT和CrossForm具有相似的参数或计算成本,但在ISIC2018数据集中,我们的CiT-Net-B的division Dice值分别比BA T、CvT和CrossForm网络高1.02%、3.00%和3.79%。在其他评估指标方面,我们的CiT-Net-B也明显优于其他比较方法。

表1:在ISIC2018基准上,拟议方法与SOTA方法的性能比较。红色表示最佳结果,蓝色表示第二好结果。†表示在ImageNet21K上使用预先训练的权重对模型进行初始化。“段落”是指参数的数量。“GFLOP”是在224×224的输入规模下计算的。由于皮肤镜图像是2D医学图像,因此比较方法都是2D网络。

在LiTS肝脏数据集的实验中,我们使用DI、VOE、RVD、ASD和RMSD五个指标对主流医学图像分割网络进行了全面评估。表2显示了LiTS Liver数据集中所提出的CiT-Net和当前主流网络的结果的定量分析。从实验结果可以看出,我们的CiT-Net在医学图像分割方面具有很大的优势,这进一步验证了CiT-Net保留医学图像局部和全局特征的完整性。值得注意的是,CiTNet-B和CiT-Net-T网络在医学图像分割方面分别取得了良好的效果,模型参数和计算成本最少。未经预训练的CiT-Net-B网络的division Dice值分别比经过预训练的Swin-Unet、TransUNet和CvT网络高1.20%、1.03%和1.01%。在其他评估指标方面,我们的CiTNet-B也明显优于其他比较方法。

表2:在LiTS肝脏基准上,所提出的方法与SOTA方法的性能比较。红色表示最佳结果,蓝色表示第二好结果。†表示在ImageNet21K上使用预先训练的权重初始化的模型。“段落”是指参数的数量。“GFLOP”是在224×224的输入规模下计算的。与ISIC2018数据集的比较实验相比,将3D Unet和V-Net引入LiTS Liver数据集的对比实验中。

3.4 消融研究

为了充分证明CiT-Net中不同模块的有效性,我们在ISIC2018数据集上进行了一系列消融实验。如表3所示,我们可以看到,本文提出的动态可变形卷积(DDConv)和(移位)窗口自适应互补注意模块((S)W-ACAM)显示出良好的性能,并且这两个模块的组合,CiT-Net显示出最佳的医学图像分割效果。同时,轻量级感知器模块(LPM)可以显著降低CiT-Net的总体参数。

表3:ISIC2018数据集中CiT-Net中DDConv、(S)W-ACAM和LPM的消融实验。

4 结论

在这项研究中,我们提出了一种新的架构CiTNet,该架构将动态自适应神经网络跨维融合转换器并行用于医学图像分割。所提出的CiT-Net融合了CNNs和Transformer的优势,通过局部关系建模和长期依赖建模,最大限度地保留了医学图像的局部细节和全局语义特征。所提出的DDConv克服了普通卷积中感受野固定和参数共享的问题,增强了局部特征的表达能力,实现了空间特征的自适应提取。所提出的(S)W-ACAM自注意机制可以充分捕捉特征空间与通道之间的跨维相关性,并通过网络训练自适应地学习空间与通道间的重要信息。此外,通过使用LPM代替传统Transformer中的MLP,我们的CiT-Net显著减少了参数数量,摆脱了网络对预训练的依赖,避免了缺乏标记医学图像数据和网络容易过拟合的挑战。与流行的CNNs和Transformer医学图像分割网络相比,我们的CiT-Net在操作效率和分割效果方面显示出显著的优势。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值