CA-Net: Comprehensive Attention ConvolutionalNeural Networks for Explainable Medical ImageSegmenta

CA-Net:用于解释性医学图像分割的综合注意力卷积神经网络

(CNN(卷积神经网络)的可解释性较差意味着在使用这种神经网络进行深度学习任务时,很难理解网络内部的运作方式和如何做出特定的预测或决策。)

摘要:准确的医学图像分割对于疾病的诊断和治疗计划至关重要。卷积神经网络(CNNs)在医学图像自动分割方面取得了最先进的性能。然而,它们仍然受到复杂条件的挑战,在这些条件下,分割目标的位置、形状和规模变化很大,并且现有的细胞神经网络的可解释性较差,这限制了它们在临床决策中的应用。在这项工作中,我们在CNN架构中广泛使用了多个注意力,并提出了一种全面的基于注意力的CNN(CA-Net),用于更准确和可解释的医学图像分割,同时了解最重要的空间位置、通道和尺度。特别地,我们首先提出了一个联合空间注意力模块使网络更加关注前景区域。(联合空间注意力:它的主要目标是将不同嵌入空间(embedding space)中的信息整合起来,以更好地处理复杂的关系和特征。自然语言处理中,常常存在多种类型的信息,例如文本、图像、知识图谱等,它们通常表示在不同的嵌入空间中。联合空间注意力通过考虑这些不同嵌入空间中的信息,允许模型同时关注并整合这些信息,模型可以更好地理解和处理多样性数据,从而提高了任务的性能和表现。以更好地理解文本或实现任务。然后,提出了一种新的通道注意力模块,以自适应地重新校准通道特征响应,并突出最相关的特征通道。此外,我们提出了一个尺度注意力模块,该模块隐含地强调多个尺度中最显著的特征图,从而使CNN适应对象的大小。对ISIC 2018的皮肤病变分割和胎儿MRI的多类分割进行的广泛实验发现,与U-Net相比,我们提出的CA-Net将皮肤病变的平均分割Dice评分从87.77%显著提高到92.08%,胎盘的平均分割Dice评分从84.79%显著提高到87.08%,胎儿大脑的平均分割Dice评分从93.20%显著提高到95.88%。与最先进的DeepLabv3+相比,它将模型大小缩小了约15倍,精度接近甚至更好。此外,通过可视化注意力权重图,它比现有网络具有更高的可解释性。

1 介绍

医学图像分割对于促进定量病理学评估是重要的治疗计划和监测疾病进展[1]。然而,由于几个原因,这是一项具有挑战性的任务。首先,医学图像可以通过各种协议获取,并且通常具有低对比度和不均匀的外观,导致过度分割和细分不足[2]。其次,一些结构的尺度和形状变化很大,例如皮肤镜图像中的皮肤损伤[3],这使得很难构建先前的形状模型。此外,一些结构在大图像背景下可能具有较大的位置和方向变化,例如磁共振成像(MRI)[2]、[4]、[5]中的胎盘和胎儿大脑。为了获得良好的分割性能,自动分割方法非常需要知道目标的规模和位置。

随着深度卷积神经网络(CNNs)的发展,许多分割任务都取得了最先进的性能[1]。与传统方法相比,细胞神经网络具有更高的表示能力,可以从大型数据集中自动学习最有用的特征。然而,大多数现有的细胞神经网络都面临着以下问题:首先,通过卷积层的设计,它们在不同的空间位置使用共享权重,这可能导致缺乏空间意识,从而在处理具有灵活形状和位置的结构时,尤其是对于小目标,性能降低。其次,它们通常使用大量的特征通道,而这些通道可能是冗余的。许多网络,如U-Net[6],使用具有不同语义信息的低级和高级特征的级联。它们可能对分割任务具有不同的重要性,突出相关通道同时抑制一些不相关通道将有利于分割任务[7]。第三,细胞神经网络通常提取多尺度特征来处理不同尺度的物体,但缺乏对特定图像最适合分割的尺度的认识[8]。最后但并非最不重要的是,由于其嵌套的非线性结构,大多数现有细胞神经网络的决策很难解释并以黑匣子的方式使用,这限制了其在临床决策中的应用。

为了解决这些问题,注意力机制有望提高细胞神经网络的分割性能,因为它模仿了人类关注特征图中最相关信息的行为,同时抑制了不相关的部分。通常,有不同类型的注意力可以用于细胞神经网络,例如关注相关的空间区域、特征通道和尺度。作为空间注意力的一个例子,注意力门(AG)[9]隐含地生成软区域建议,并突出用于腹部器官分割的有用显著特征。挤压和激励(SE)块[7]是一种通道注意力,它重新校准与目标相关的有用通道特征图。秦[10]在脑肿瘤分割中注意处理具有不同感受野的多个平行分支,在超声图像的前列腺分割中也使用了相同的想法[11]。然而,这些工作只证明了使用单个或两个注意力机制进行分割的有效性,这可能会限制网络的性能和可解释性。我们认为,更全面地利用注意力将提高分割性能,并使人们更容易理解网络是如何工作的。

对于人工智能系统,当应用于医学诊断时,其可解释性是非常理想的[12]。细胞神经网络的可解释性有助于验证预测,其中必须保证网络对正确特征的依赖[12]。它还可以帮助人们了解模型的弱点和长处,以提高性能并发现从大型数据集中提取的新知识。在分割任务中,可解释性帮助开发人员解释和理解决策是如何获得的,并相应地修改网络以获得更好的准确性。一些早期的工作试图通过可视化不同层中的特征图或卷积核来理解细胞神经网络的决策[13]。其他方法,如类激活(CAM)[14]和引导反向传播(GBP)[15],主要用于解释细胞神经网络在分类任务中的决策。然而,很少研究细胞神经网络在医学图像分割中的可解释性[16],[17]。Schlenper等人[16]提出了一种注意力门,它在突出显著特征的同时,隐式地学习抑制不相关区域。此外,Roy等人[17]同时引入了空间和通道注意力,以增强有意义的特征。在这项工作中,我们利用空间、通道和尺度的关注来解释和理解我们的网络是如何获得像素级预测的。可视化我们的网络获得的注意力权重不仅有助于了解哪个图像区域被激活用于分割结果,而且还揭示了对预测贡献最大的尺度和通道。

据我们所知,这是第一项利用综合注意力来提高神经网络在医学图像分割中的性能和可解释性的工作。这项工作的贡献有三个方面。首先,我们提出了一种新的基于注意力的综合网络(即CA Net),以充分利用注意力对空间位置、渠道和尺度的影响。其次,为了实现这些注意中的每一个,我们提出了新的构建块,包括双路径多尺度空间注意模块、新的残差通道注意模块和从最合适的尺度自适应地选择特征的尺度注意模块。第三,我们使用综合注意力来获得我们的网络的良好解释性,其中分割结果可以归因于相关的空间区域、特征渠道和规模。我们提出的CA-Net在两个分割任务上得到了验证:从皮枕图像中进行的二值皮肤损伤分割和胎儿MRI(包括胎儿大脑和胎盘)的多类分割,其中对象的位置、规模和形状变化很大。大量实验表明,CA Net的性能优于不使用或仅使用部分注意力的CA Net。此外,通过可视化注意力权重图,我们实现了CA-Net如何用于分割任务的良好解释性。

2 相关工作

A  用于图像分割的卷积神经网络

DeepLab[8]等完全卷积网络(FCN)[18]框架是自然语义图像分割的成功方法。随后,提出了一种编码器-解码器网络SegNet[19]来生成密集特征图。DeepLabv3+[20]通过添加解码器模块和使用深度可分离卷积来扩展DeepLab,以获得更好的性能和效率。

在医学图像分割中,FCN也被广泛用于各种任务。U-Net[6]是一种广泛用于2D生物医学图像分割的CNN。提出了具有相似结构的3D UNet[21]和V-Net[22]用于3D医学图像分割。在[23]中,提出了一种用于黑色素瘤自动分割的扩张残差和金字塔池网络。其他一些在医学图像分割方面具有良好性能的细胞神经网络包括HighRes3DNet[24]、DeepMedic[25]和H-DenseUNet[26]等。然而,这些方法只使用位置不变核进行学习,而没有关注与分割对象更相关的特征和位置。同时,它们的可解释性很差,因为它们几乎没有提供解释决策过程的机制。

B 注意机制

在计算机视觉中,有一些注意力机制应用于不同的任务场景[27]–[29]。空间注意力已用于图像分类[27]和图像字幕[29]等。所学习的注意力向量突出了基于当前特征的序列的显著空间区域,同时抑制了不相关的对立部分,使预测更加情境化。使用通道关注的SE块最初被提出用于图像分类,最近被用于语义分割[26],[28]。注意力机制的这些思想通过生成上下文向量来工作,该上下文向量为输入序列分配权重。在[30]中,提出了一种注意力机制来倾向于在多个尺度上对特征图进行软加权。然而,这种方法将多个调整大小的输入图像馈送到共享的深度网络,这需要人类专业知识来选择合适的大小,并且对目标尺度不自适应。

最近,为了利用注意力机制进行医学图像分割,Oktay等人[9]将空间注意力与U-Net相结合,从CT图像中分割腹部胰腺。Roy等人[17]提出了用于全脑和腹部多器官分割的并行空间和通道“挤压和激励”(scSE)框架。秦等人[10]和王等人[11]从中间层获得不同大小的特征图,并通过分配注意力权重来重新校准这些特征图。尽管越来越多的工作利用注意力机制进行医学图像分割,但他们很少关注不同尺度的特征图。更重要的是,它们大多只关注一两种注意力机制,据我们所知,这些注意力机制并没有被全面纳入以提高分割任务的准确性和可解释性。

3 方法

所提出的利用综合注意力的CA Net如图所示。1,其中我们添加了专门的卷积块,以同时实现关于特征图的空间、通道和尺度的综合注意力引导。在不失一般性的情况下,我们选择U-Net[6]的强大结构作为主干。U-Net骨干网是一个端到端可训练的网络,由编码器和解码器组成,每个分辨率级别都有快捷连接。编码器被视为一个特征提取器,它依次获得多个尺度上的高维特征,解码器利用这些编码的特征来恢复分割目标。

我们的CA网络有四个空间注意力模块(SA1−4),四通道注意力模块(CA1−4)和一个比例注意力模块(LA), 如图1所示。空间注意力被用来增强特征图上的感兴趣区域,同时抑制潜在的背景或无关部分。因此,我们提出了一种新的多尺度空间注意力模块,它是最低分辨率下非局部块[31]的组合(SA1) 和其他分辨率水平的双通路AG[9](SA2−4)。我们称之为联合空间注意力(Js-A) 增强了像素间的关系,使网络更好地聚焦于分割目标。渠道关注度(CA1−4)用于校准网络中低级别和高级别特征的级联,以便用更高的系数对更相关的信道进行加权。与仅使用平均池来获得通道注意力权重的SE块不同,我们还引入了最大池特征,以利用更显著的信息进行通道注意力[32]。最后,我们在解码器中连接多个尺度的特征图,并提出了一个尺度注意力模块(LA) 以突出显示分割目标的最相关尺度的特征。以下详细介绍了这些不同的注意力模块。

图1。我们建议全面关注CNN(CA Net)。具有3×3或1×1和数字(16、32、64、128和256,或类)的蓝色矩形对应于卷积核大小和输出通道。我们使用四个空间注意SA1至SA4) ,四通道注意事项CA1至CA4) 和一级关注(LA). F1−4表示连接为比例注意力模块输入的特征图的重新采样版本。

1) 联合空间注意力模块:

联合空间注意力的灵感来源于非局部网络[31]和AG[9]。

我们在网络中使用四个注意块(SA1−4)来学习四种不同分辨率水平的注意图,如图1所示。首先,对于最低分辨率水平的空间注意力(SA1),我们使用非局部块来捕获所有像素之间的相互作用,从而更好地了解整个上下文。

(SA1)的详细情况如图2(a)所示。设Let x表示形状为256 ×H×W的输入特征图,其中256为输入通道号,H、W分别表示高度和宽度。我们首先使用三个平行的1×1卷积层,输出通道数为64,对x进行降维,分别得到三个压缩特征映射

x',x''和x''',它们具有相同的64 ×H×W的形状。然后,这三个特征映射可以被重塑成形状为64 ×HW的二维矩阵。得到空间注意系数图为:其中T表示矩阵转置运算。α1∈(0,1)^HW×HW是一个方阵,是一个逐行Softmax函数,使得每一行之和等于1.0。使用α1将每个像素的特征表示为所有像素特征的加权和,以保证所有像素之间的相互作用。经校正后的降维特征映射为:

x^重塑为64 ×H×W,我们使用Φ^256,它是一个1 × 1的卷积,具有批处理归一化,输出通道号为256,来展开x^以匹配x的通道号。最后利用残差连接方便训练过程中的信息传播,输出SA1:

其次,由于内存消耗的增加限制了将非局部块应用于更高分辨率的特征图,我们扩展了AG来学习SA2−4中的注意系数。由于单个AG可能导致有噪声的空间注意图,我们提出了一种双路径空间注意,它利用两个AG并行来加强对感兴趣区域的注意,并减少注意图中的噪声。与模型集成类似,并行组合两个AGs有可能提高分割的鲁棒性。图2(b)显示了单个AG通路的详细信息。

设x^l表示编码器中尺度为x^h的低级特征图,s表示从解码器末端以较低的空间分辨率以s+ 1的尺度上采样的高级特征图,使x^h和x^l具有相同的形状。在单路径AG中,查询特征x^h用于校准低级关键特征x^l。如图2(b)所示,分别用输出通道号为C(例如,64)的1×1卷积压缩x^h和x^l,并对结果求和,然后使用ReLU激活函数。然后将ReLU获得的Feature map输入到另一个1 × 1的卷积中,其中有一个输出通道,然后是Sigmoid函数,以获得像素级注意力系数α∈[0,1]^H×W。然后将x^l乘以待校准的α。在我们的双通路AG中,两个通路中的空间注意图分别表示为:α^和α~。如图2(c)所示,对于SAs(s= 2,3,4),我们的双途径AG的输出为:

⭕C表示通道连接。ΦC表示与C输出通道进行1 × 1卷积,然后进行批处理归一化。对于SA2、SA3和SA4,C分别是64、32和16。

2)通道注意模块:在我们的网络中,通道连接用于将来自编码器的空间注意校准的低级特征与来自解码器的高级特征组合在一起,如图1所示。来自编码器的特征通道大多包含低级信息,而来自解码器的对应通道包含更多的语义信息。因此,它们对于分割任务可能具有不同的重要性。为了更好地利用最有用的特征通道,我们引入了通道关注来自动突出相关的特征通道,同时抑制不相关的通道。建议通道注意的细节

与以前的SE块仅利用平均池化信息来激发特征通道不同[7],我们另外使用maxpooled特征来保留更多信息[32]。同样,让푥代表连接的输入特征地图퐶渠道,全球平均池푃푎푣푔和全球最大池푃푚푎푥首先被用于获得每个通道的全球信息和输出表示为푃푎푣푔(푥)∈푅퐶×1×1和푃푚푎푥(푥)∈푅퐶×1×1,分别。使用多层感知(푀퐿푃)푀푟获得通道关注系数훽∈[0,1]퐶×1×1,푀푟由两个完全连接的层实现,其中第一层的输出通道号为퐶/푟,其次是ReLU,第二层的输出通道号为퐶。我们设置푟= 2,计算性能和计算成本的权衡[7]。注意,对于푃푎푣푔(푥)和푃푚푎푥(푥)使用了一个共享的푀푟,它们的结果被求和并输入到Sigmoid中以获得훽。我们的通道注意力模块的输出得到:

(符号就对照着论文看)我们使用残余连接来进行训练。在我们的网络中,使用了四个通道注意力模块(퐶퐴1−4)(每个连接的特征一个),如图1所示。

3)尺度关注模块:U-Net骨干网获取不同尺度的特征映射。为了更好地处理不同尺度的物体,将这些特征结合起来进行最终的预测是合理的。然而,对于给定的对象,这些不同尺度的特征映射可能与对象具有不同的相关性。希望能够自动确定每个像素的尺度权重,以便网络能够自适应给定输入的相应尺度。因此,我们提出一个尺度关注模块,自动学习每个尺度的图像特定权重,以校准不同尺度下的特征,用于网络的末端,如图1所示。

我们提出的퐿퐴块如图4所示。我们首先使用双线性插值将解码器获得的不同尺度(푠= 1,2,3,4)的特征映射퐹푠重新采样到原始图像大小。为了降低计算成本,使用1 × 1卷积将这些特征图压缩成4个通道,并将不同尺度的压缩结果连接成混合特征图(퐹)。与我们的퐶퐴类似,我们将푃푎푣푔푃푚푎푥与푀퐿푃结合起来获得每个通道的系数(即这里的刻度),如图4所示。尺度系数关注向量记为훾∈[0,1]4×1×1。为了在每个像素上分配多尺度软注意权重,我们还使用一个空间注意块퐿퐴∗,以↑퐹·훾为输入,生成空间注意系数훾∗∈[0,1]1×퐻×,因此훾·훾∗表示像素尺度的注意。퐿퐴*由一个3 × 3和一个1 × 1卷积层组成,其中第一个层有4个输出通道,后面跟着ReLU,第二个层有4个输出通道,后面跟着Sigmoid。퐿퐴模块的最终输出是:

其中,残差连接再次用于训练,如图4所示。使用尺度注意模块可以让CNN感知到最合适的尺度(物体有多大)。

4  实验结果

我们通过两个应用验证了我们提出的框架:(i)从皮肤镜图像中分割皮肤病变。(ii)胎儿MRI的多分类分割,包括胎儿脑和胎盘。对于这两种应用,我们实施了消融研究,以验证我们提出的CA-Net的有效性,并将其与最先进的网络进行比较。这两个任务的实验结果将分别在第四节- b和第四节-C中详细介绍。

A 实施与评价方法

所有方法都是在Pytorch框架中实现的1,2。我们使用自适应矩估计(Adam)进行训练,初始学习率为10−4,权值衰减为10−8,批大小为16,迭代300次。学习率衰减每256次循环0.5次。我们的CA-Net的第一个块中的特征通道数被设置为16,并在每次降采样后加倍。在我们的퐶퐴和퐿퐴模块的푀퐿푃s中,根据[7],通道压缩因子푟为2。训练在一个NVIDIA Geforce GTX 1080 Ti GPU上实施。我们使用Soft Dice损失函数对每个网络进行训练,并在所有时代的验证集上使用表现最好的模型进行测试。我们使用5倍交叉验证进行最终评估。经过训练后,该模型被部署在SenseCare平台上支持临床研究[33]。

对分割精度的定量评价基于:(i)分割与ground truth之间的Dice得分,其定义为:

式中R푎和R푏分别表示算法分割的区域和ground truth。(ii)平均对称表面距离(ASSD)。设푆푎和푆푏分别代表自动分割的边界点集和ground truth,则定义ASSD为:

B.从皮肤镜图像中分割病变

随着自动分析算法的出现,准确的自动皮肤病变边界分割有可能帮助皮肤科医生快速诊断和筛查皮肤疾病。这项任务的主要挑战是皮肤病变区域具有各种规模、形状和颜色,这需要自动分割方法对病变的形状和规模变化具有鲁棒性[34]。

1) 数据集:对于皮肤损伤分割,我们使用了公开的ISIC 20183训练集,其中包含2594张图像及其基本事实。我们将数据集随机分为1816260和518,分别用于训练、验证和测试。皮肤损伤分割数据集的原始大小从720×540到6708×4439不等,我们将每个图像的大小调整为256×342,并通过平均值和标准差对其进行归一化。在训练过程中,大小为224×300的随机裁剪、水平和垂直翻转以及角度为(−휋/6.휋/6) 用于数据扩充。

2) 空间注意方法的比较:我们首先在不使用通道注意和尺度注意模块的情况下研究了我们的空间注意模块的有效性。我们比较了我们提出的多层次空间注意力的不同变体:1)在푆퐴1−4,称为sAG;2) 在푆퐴1−4,称为t-AG;3) 使用的非本地块푆퐴1,称为n-Local[31]。我们提出的使用非局部块的联合注意方法푆퐴1和dualpathway AG푆퐴2−4表示为Js-A。对于基线U-Net,通过编码器和解码器中相应特征的简单级联来实现跳过连接[6]。对于不使用的其他比较变体푆퐴2−4,它们的跳跃连接与U-Net的跳跃连接相同。表一显示了这些方法之间的定量比较。可以观察到,所有使用空间注意力的变体都导致比基线更高的分割精度。此外,我们观察到双通路空间注意块比单通路注意块更有效,并且我们的联合空间注意块优于其他块。与标准AG[9]相比,我们提出的空间注意力将平均Dice从88.46%提高到90.83%。

图图5(a)可视化了s-AG、t-AG和我们的Js-a获得的空间注意力权重图。可以观察到,单路径AG几乎关注每个像素,这意味着它是分散的。双途径AG优于单途径AG,但仍不够自适应。相比之下,我们提出的Js-A比上述方法更关注目标。

图5(b)给出了通过比较方法获得的定性分割结果的一些示例。可以看出,在神经网络中引入空间注意力块大大提高了分割精度。此外,在这两种情况下,所提出的Js-A都比其他空间注意力方法获得了更好的结果。在病变具有复杂形状和模糊边界的第二种情况下,我们提出的Js-a保持了更好的结果。

我们观察到,在ISIC 2018中,原始注释和我们的认知之间可能存在偏差,如图所示。5。这主要是因为沿着真实边界的图像对比度通常较低,并且精确的病变边界需要一些专业知识来描绘。ISIC 2018数据集由经验丰富的皮肤科医生进行了注释,有些注释可能与非专家的想法不同。

3) 渠道注意力方法的比较:在本次比较中,我们只引入了渠道注意力模块来验证我们提出的方法的有效性。我们首先研究了插入的信道注意力模块在网络中的位置的影响:1)编码器,2)解码器,3)编码器和解码器。这三种变体分别被称为C-A(Enc)、C-A(Dec)和C-A(Enc和Dec)。我们还比较了在通道注意力模块中使用和不使用最大池的影响。

表II显示了这些变体的定量比较,这表明通道注意力块确实提高了分割性能。此外,具有额外最大池化信息的通道注意力块通常比仅使用平均池化的通道注意块执行得更好。此外,我们发现插入解码器的通道注意力块比插入编码器或编码器和解码器的通道注意块性能更好。C-A(Dec)的平均骰子得分为91.68%,优于其他人。

图6显示了我们提出的渠道注意力及其变体的视觉比较。当背景具有复杂纹理时,基线U-Net的性能较差,并且通道注意力方法提高了这些情况的准确性。显然,我们提出的通道注意力模块C-A(Dec)比其他模块获得了更高的精度。

4) 量表注意方法的比较:在本次比较中,我们只介绍了量表注意的方法来验证我们提出的量表注意法的有效性。设L-A(1K)表示应用于级联的尺度注意力如图1所示。为了研究特征图尺度的数量对分割的影响,我们将我们提出的方法分别与K=2、3、4和5进行了比较。

表三显示了定量比较结果。我们发现,组合多个尺度的特征优于基线。当我们将尺度从1到4的特征连接起来时,Dice分数和ASSD可以分别获得91.58%和0.66像素的最佳值。然而,当我们组合来自所有5个尺度的特征时,分割精度降低。这表明,最低分辨率级别的特征图不适合于详细预测逐像素标签。因此,我们只融合了从1到4的特征,如图所示。1在以下实验中。图7显示了基于不同尺度注意力变体的皮肤损伤分割的可视化。

图8展示了像素尺度注意力系数的可视化훾 · 훾∗ 在不同的尺度上,每张图片下面的数字表示按尺度的注意力系数훾.这有助于更好地理解不同尺度下特征的重要性。这两个病例分别显示一个大的和一个小的病变。可以观察到,大病变具有更高的全局注意力系数훾 在2级和3级中,比小病变多,并且훾 在标度1中,在小病变中比在大病变中具有更高的值。按像素缩放的注意力图显示出对第一行中的比例尺2和第二行中的标尺1的关注最强。这表明,网络自动倾向于聚焦于相应的尺度,以分割不同大小的病变。

5) 部分注意力和全面注意力的比较:为了研究不同注意力机制组合的效果,我们将CA-Net与三种基本空间、通道和尺度注意力的不同组合的六种变体进行了比较。这里,SA表示我们提出的多尺度联合空间注意力,CA表示我们仅在骨干解码器中使用的信道注意力。

表IV显示了我们的CANet和部分注意力方法在皮肤损伤分割方面的定量比较。从表IV中,我们发现SA、CA和LA中的每一个与基线U-Net相比都获得了性能改进。将这两种注意力方法结合起来比使用单个注意力的方法要好。此外,我们提出的CA-Net在Dice分数和ASSD方面都优于所有其他变体,相应的值分别为92.08%和0.58像素。

6) 与最先进框架的比较:我们将我们的CA Net与三种最先进的方法进行了比较:1)使用DenseNet-121[36]作为主干的DenseASPP[35];2) 使用Resnet101[38]作为骨干的RefineNet[37];3) DeepLabv3+[20]的两个变体,分别使用Xception[39]和扩展残差网络(DRN)[40]作为特征提取器。我们对所有这些网络进行了ISIC 2018的再培训,没有使用他们预先培训的模型。

这些方法的定量比较结果如表五所示。它表明,所有最先进的方法在Dice评分和ASSD方面都具有良好的性能。

我们的CA-Net的Dice得分为92.08%,与U-Net的Dice为87.77%相比,这是一个相当大的改进。尽管我们的CA-Net的性能略低于DeepLabv3+,但差异并不显著(p值=0.46>0.05),并且我们的CA.Net的模型大小小了15倍,具有更好的可解释性。对于皮肤损伤分割,我们的CA-Net的每张图像的平均推断时间为2.1ms,而DeepLabv3+[20]和RefineNet[37]分别为4.0ms和3.4ms。图9显示了处理皮肤病变分割任务的不同细胞神经网络的视觉比较。

C.从胎儿MRI中分割多个器官在本实验中,我们证明了我们的CA Net在多器官分割中的有效性,我们的目标是从胎儿MRI切片中联合分割胎盘和胎儿大脑。胎儿MRI越来越多地用于研究胎儿发育和病理,因为它比更广泛使用的产前超声提供了更好的软组织对比[4]。

分割一些重要器官,如胎儿大脑和胎盘,对胎儿生长评估和运动矫正很重要[41]。临床胎儿MRI数据通常是用大的切片厚度获得的,以获得良好的对比度与噪声比。此外,胎儿的运动会导致切片之间的外观不均匀。因此,2D分割被认为比从运动受损的MRI切片中直接进行3D分割更合适[2]。

1)数据集:数据集由36例妊娠中期孕妇的t2加权胎儿MRI轴位、冠状位和矢状位三视图(150叠)组成,采用单次快速旋转回波(SSFSE),像素大小为0.74 ~ 1.58 mm,层间间距为3 ~ 4mm。胎龄22 ~ 29周。8例胎儿诊断为脊柱裂,其余无胎儿病理。所有孕妇年龄均在18岁以上,数据的使用经医院研究伦理委员会批准。

由于堆栈包含覆盖对象的切片数量不平衡,我们从每个堆栈中随机选择10个切片进行实验。然后,我们在患者水平上随机分割切片,分配1050个用于训练,150个用于验证,300个用于测试。测试集包含轴向片110片,冠状片80片,矢状片110片。由经验丰富的放射科医生对胎儿大脑和胎盘的手工注释被用作基本事实。我们训练了一个多类分割网络来同时分割这两个器官。每个切片被调整为256 × 256。我们在x轴和y轴上随机翻转,并以(−휋/6,휋/6)的角度旋转以进行数据增强。所有图像均采用均值和标准差进行归一化处理。

2)空间注意方法的比较:与第IV -B2部分平行,我们将我们提出的Js-A与:(1)单通道AG (s-AG),(2)双通道AG (t-AG),(3)非局部块(n-local)进行了比较。

表六给出了这些方法之间的定量比较结果。从表六中,我们观察到所有空间注意模块的变体都导致了更高的Dice和ASSD分数。可以观察到,双途径AG执行其中,Js-A模块获得的分数最高,Dice为95.47%,ASSD为0.30像素。此外,在组织边界模糊的胎盘分割中,我们的模型仍然保持良好的分割性能,Dice得分为85.65%,ASSD分别为0.58像素。

图10是这些方法分割结果的视觉对比,以及它们的注意力权重图。从图10(b)中,我们发现空间注意力在处理复杂物体形状时具有可靠的性能,如红色箭头所示。同时,通过可视化它们的空间注意力权重图,如图10(a)所示,与其他方法相比,我们提出的Js-A具有更强的专注于目标区域的能力,因为它在我们感兴趣的目标上分配了更高更近的权重。

3)通道注意方法的比较:我们将提出的通道注意方法与胎儿MRI分割第IV-B3节中列出的相同变体进行了比较。比较结果见表七。结果表明,与其他解码器相比,插入的信道注意带来的参数明显减少,但仍然保持相似或更高的精度。我们还比较了在通道注意力块中使用和不使用最大池。从表7中,我们可以发现添加额外的max-pooled信息确实提高了Dice和ASSD的性能,这证明了我们提出的方法的有效性。

4)尺度注意方法的比较:在本次比较中,我们考察了IV-B4章节中描述的从尺度1到K串联不同数量的特征映射的效果,定量结果如表VIII所示。类似地,我们观察到组合多个尺度的特征优于基线。当我们从1级到4级连接特征时,我们得到了最好的结果胎盘和胎脑对应的Dice值分别为86.21%和95.18%。当额外使用最低分辨率的特征映射时,即L-A (1-5), Dice分数会略微降低。

图11显示了我们提出的尺度注意及其变体的视觉比较。第二排胎盘形状复杂,尾长,结合尺度1 ~尺度4的特征获得最佳性能。图12为胎儿MRI比例尺注意权重图的视觉对比。从可视化的逐像素比例注意图中,我们观察到网络非常关注第一行的比例1(胎儿大脑较小)和第二行的比例2(胎儿大脑较大)。

5)部分注意与全面注意的比较:与IV-B5节类似,我们在胎儿MRI分割胎儿脑和胎盘的任务中比较了全面注意与部分注意。从表九中,我们发现,结合三种注意机制中的两种的模型基本上优于使用单一注意机制的模型。三种二元注意方法中SA + CA得分最高,胎盘的Dice得分为86.68%,胎儿脑的Dice得分为95.42%。此外,我们提出的CA-Net优于所有这些二进制-胎盘的Dice评分为87.08%,胎儿脑的Dice评分为95.88%。CA-Net的ASSD值低于其他方法。

6)最先进框架的比较:我们还将CA-Net与第IV-B5节中实施的最先进方法及其变体进行了比较。分别对轴向、矢状面和冠状面图像的分割性能进行了测试。表X列出了这些方法对胎儿MRI分割的定量评价。我们观察到,我们提出的CA-Net在所有三个视图中都比其他视图获得更好的Dice分数。与UNet相比,CA-Net在胎盘分割上的Dice得分分别提高了2.35%、1.78%和2.60%,在胎儿脑分割上的Dice得分分别提高了3.75%、0.85%和2.84%,超过了现有的注意力分割方法和最先进的分割方法。此外,对于三个视图的平均Dice和ASSD值,CA-Net的表现优于其他视图。同时,与RefineNet[37]和Deeplabv3+[20]相比,CA-Net的模型规模要小得多,这使得训练和推理的计算成本更低。对于胎儿MRI分割,CA-Net的平均每张图像推断时间为1.5ms,而DeepLabv3+和RefineNet分别为3.4ms和2.2ms。图13的定性结果也表明,CA-Net在胎儿MRI分割方面的表现明显优于基线和其他方法。在处理图13第1行和第5行所示的复杂形状以及第二行模糊边界时,CANet比其他方法更接近真实边界。注意空间和尺度的可视化图10和图12所示的关注点有助于解释CA-Net的决策,但DeepLabv3+、RefineNet和DenseASPP没有提供这种可解释性。

5 讨论和结论

在医学图像分割任务中,病灶等目标的位置、形状和尺度变化较大,使网络能够感知目标的空间位置和大小对于准确分割非常重要。此外,卷积神经网络生成具有大量通道的特征图,通常采用不同语义信息或不同尺度的特征图的拼接。关注最相关的渠道和尺度是提高分割性能的有效途径。利用尺度注意自适应地利用不同尺度的特征,在处理变化尺度的物体时具有优势。为了同时利用这些优势,我们综合利用了这些互补的注意机制,我们的结果表明CA-Net有助于在只有很少参数的情况下获得更准确的分割。

对于可解释的CNN, CAM[14]、GBP[15]等先前的工作主要关注图像分类任务,只考虑空间信息来解释CNN的预测。此外,它们是post-hoc方法,在前向传递预测之后需要额外的计算来解释预测结果。与这些方法不同的是,CA-Net对如何在分割任务中使用每个空间位置、特征图通道和尺度进行预测给出了全面的解释。此外,我们在单次向前传递中获得这些注意力系数,无需额外计算。通过将不同方面的注意力图可视化,如图5和图8所示,我们可以更好地理解网络是如何工作的,这有可能帮助我们改进cnn的设计。

我们在RGB图像和胎儿MRI两个不同的图像域上进行了实验。这两个是具有代表性的图像域,在这两种情况下,我们的CA-Net与U-Net相比都有相当大的分割改进。这表明CA-Net在不同的分割任务中具有竞争的性能。将来将CA-Net应用于其他图像模式,如超声和其他解剖学,是很有意义的。

在这项工作中,我们研究了与不同位置和尺度的分割目标相关的三种主要类型的注意力。最近,文献中也提出了一些其他类型的关注,例如对并行卷积核的关注[42]。然而,使用多个并行卷积核会增加模型的复杂度。

我们的ca网络中大部分的注意力块都集中在解码器上。这主要是因为编码器充当了一个特征提取器,利用它来获得足够的候选特征。在编码器上施加注意力可能会导致一些潜在有用的特性在早期阶段被抑制。

因此,我们使用解码器中的注意块来突出所有候选特征中的相关特征。

具体而言,如下[9],空间注意被设计为使用解码器中的高级语义特征来校准编码器中的低级特征,因此它们被用于编码器之后的跳过连接。尺度关注的目的是更好地融合在解码器中获得的原始语义预测,这些预测自然应该放在网络的末端。对于信道关注,我们尝试将它们放置在网络的不同位置,发现将它们放置在解码器中比放置在编码器中效果更好。如表2所示,所有频道注意力变量都优于基线U-Net。然而,仅在解码器中使用信道注意优于在编码器中使用信道注意的变体。原因可能是编码阶段需要保持足够的特征信息,这证实了我们的假设,即在早期阶段抑制一些特征会限制模型的性能。然而,其他一些注意事项[42]可能在编码器中有用,这将在未来进行研究。

与以往的工作主要是提高分割精度而难以解释不同,我们的目标是设计一个综合性能好的网络,同时具有较高的分割精度、效率和可解释性。事实上,我们的CA-Net的分割精度是有竞争力的:与U-Net相比,它导致Dice对皮肤病变的分割精度有显著提高(92.08% VS 87.77%)。与最先进的DeepLabv3+和RefineNet相比,我们的CA-Net以大约15倍的参数实现了非常接近的分割精度。此外,CA-Net易于解释,如图5、8、10和12所示,但DeepLabv3+和RefineNet在如何定位目标区域、识别尺度和确定有用特征方面的可解释性较差。同时,在胎儿MRI分割中,表X的实验结果显示,我们的CA-Net与UNet相比有相当大的改进(Dice为87.08% VS 84.79%),并且在所有三个视图中都优于最先进的方法。因此,我们的CA-Net的优势在于,它可以实现比最先进的方法更高的可解释性和效率,同时保持相当甚至更好的准确性。

在皮肤病变分割任务中,我们观察到CA-Net的性能略低于Deeplabv3+,但两者之间没有显著差异。

我们认为原因是Deeplabv3+主要是为自然图像分割任务而设计的,而皮肤镜下的皮肤图像是彩色图像,其强度分布与自然图像相似。然而,与Deeplabv3+相比,我们的CA-Net可以达到相当的性能,并且具有更高的可解释性和15倍的参数,从而提高了计算效率。在胎儿MRI分割任务中,CA-Net的准确率明显高于目前最先进的方法,这表明了我们方法的有效性和良好的可解释性。

综上所述,我们提出了一种基于关注的综合卷积神经网络(CA-Net),该网络学习综合利用多个关注,以获得更好的医学图像分割性能和可解释性。

我们使网络能够同时自适应地关注空间位置、特征通道和对象尺度。

在现有的空间和通道注意方法的激励下,我们进一步改进以增强网络关注感兴趣领域的能力。我们提出了一个新的尺度注意模块,隐式强调最显著的尺度获得多尺度特征。实验结果表明与Deeplabv3+等最先进的语义分割模型相比,我们的CA-Net以更小的模型尺寸获得了相当甚至更高的医学图像分割精度。最重要的是,CA-Net获得了良好的模型可解释性,这对于理解网络如何工作很重要,并且有可能提高临床医生对人工智能算法给出的预测的接受度和信任度。我们提出的多注意模块可以很容易地插入到大多数语义分割网络中。在未来,该方法可以很容易地扩展到三维图像的分割。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
C语言是一种广泛使用的编程语言,它具有高效、灵活、可移植性强等特点,被广泛应用于操作系统、嵌入式系统、数据库、编译器等领域的开发。C语言的基本语法包括变量、数据类型、运算符、控制结构(如if语句、循环语句等)、函数、指针等。在编写C程序时,需要注意变量的声明和定义、指针的使用、内存的分配与释放等问题。C语言中常用的数据结构包括: 1. 数组:一种存储同类型数据的结构,可以进行索引访问和修改。 2. 链表:一种存储不同类型数据的结构,每个节点包含数据和指向下一个节点的指针。 3. 栈:一种后进先出(LIFO)的数据结构,可以通过压入(push)和弹出(pop)操作进行数据的存储和取出。 4. 队列:一种先进先出(FIFO)的数据结构,可以通过入队(enqueue)和出队(dequeue)操作进行数据的存储和取出。 5. 树:一种存储具有父子关系的数据结构,可以通过中序遍历、前序遍历和后序遍历等方式进行数据的访问和修改。 6. 图:一种存储具有节点和边关系的数据结构,可以通过广度优先搜索、深度优先搜索等方式进行数据的访问和修改。 这些数据结构在C语言中都有相应的实现方式,可以应用于各种不同的场景。C语言中的各种数据结构都有其优缺点,下面列举一些常见的数据结构的优缺点: 数组: 优点:访问和修改元素的速度非常快,适用于需要频繁读取和修改数据的场合。 缺点:数组的长度是固定的,不适合存储大小不固定的动态数据,另外数组在内存中是连续分配的,当数组较大时可能会导致内存碎片化。 链表: 优点:可以方便地插入和删除元素,适用于需要频繁插入和删除数据的场合。 缺点:访问和修改元素的速度相对较慢,因为需要遍历链表找到指定的节点。 栈: 优点:后进先出(LIFO)的特性使得栈在处理递归和括号匹配等问题时非常方便。 缺点:栈的空间有限,当数据量较大时可能会导致栈溢出。 队列: 优点:先进先出(FIFO)的特性使得

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值