Half-UNet: A Simplified U-NetArchitecture for Medical ImageSegmentation（用于医学图像分割的简化U-Net架构）

本文链接：https://blog.csdn.net/weixin_45622568/article/details/133684244

摘要：医学图像分割在计算机辅助诊断过程中起着至关重要的作用。近年来，U-Net在医学图像分割中得到了广泛的应用。UNet的许多变体已经被提出，它们试图在保持u型结构不变的情况下提高网络性能。然而，这种u型结构并不一定是最佳的。本文通过实验分析了U-Net的不同部分对分割能力的影响。然后，提出了一种更高效的架构——HalfUNet。所提出的架构本质上是一个基于U-Net结构的编码器-解码器网络，其中编码器和解码器都进行了简化。重新设计的架构利用了通道号的统一、全尺寸特征融合和Ghost模块。我们比较了Half-UNet和U-Net及其变体在多种医学图像分割任务中的应用:乳房x线摄影图像分割、CT图像中的肺结节分割和左心室MRI图像分割。

实验表明，Half-UNet的分割精度与U-Net及其变体相似，而参数和浮点运算分别比U-Net减少了98.6%和81.8%

1 介绍

医学图像分析设备，包括磁共振成像(MRI)、计算机断层扫描(CT)和x射线成像已经成为临床诊断的基本设备。

医学图像分割作为医学图像分析的重要方法，通过帮助医生做出准确的判断，为临床诊断和疾病的早期诊断提供了可靠的依据。传统的医学图像分割算法主要有人工分割(Mudigonda et al .， 2000)、半自动分割(Kilday et al .， 1993;V ard等人，2011)，以及自动分割(Qi等人，2012;Lu et al .， 2015)。这些算法严重依赖于人类的先验知识，泛化能力不足，难以获得令人满意的结果。然后，深度学习方法推动了生物医学图像分割领域的进步(Zhang et al .， 2015)。最早的卷积神经网络(CNN)如LeNet (LeCun et al .， 1998)、AlexNet (Krizhevsky et al .， 2012)、VggNet (Simonyan and Zisserman, 2014)和GoogleNet (Szegedy et al .， 2015)被引入解决图像识别问题。

近年来，CNN通过获取每个像素的分类信息来实现像素级分类，解决图像分割问题(Wolterink et al, 2017)。

深度卷积神经网络具有较强的提取大量特征的能力，在计算机视觉领域的应用正在迅速发展。最先进的图像分割模型利用来自不同尺度的独特信息，例如全卷积网络(FCN) (Long等人，2015)、U-Net (Ronneberger等人，2015)、SegNet (Badrinarayanan等人，2017)、PSPNet (Zhao等人，2017)和一系列DeepLab版本(Chen等人，2017a,b, 2018)。其中，U-Net被广泛应用于医学图像分割。u型架构使用跳过连接来组合来自解码器的高级语义特征映射和来自编码器的相应低级详细特征映射。人们普遍认为u型网络的成功取决于u型结构，并且已经提出了许多基于u型网络的模型。

Kerfoot等人(2018)使用残差单元构建的U-Net卷积神经网络架构(He等人，2016)对左心室进行分割。Li等人(2018)利用U-Net架构中的密集卷积(Huang et al .， 2017)，提出了H-DenseUNet用于肝脏和肝脏肿瘤分割。由Zhou等人(2018)提出的unet++引入了嵌套和密集的跳过连接，以减少编码器和解码器之间的语义差距。

虽然可以达到合理的性能，但嵌套的网络结构过于复杂，无法从全尺度上检查足够的信息。Weng等人(2019)提出了NAS-UNet，使用三种类型的原语操作集和搜索空间自动找到DownSC和UpSC两种细胞架构，用于医学图像分割，与标准U-Net相比，该方法获得了更好的性能，并且使用的参数少得多(约0.8 M)。Huang等(2020)提出的UNet3+在每次特征融合时，采用综合跳过连接对所有尺度的特征图进行聚合，更完整地利用全尺度特征信息。UNet3+可以得到合理的结果，但参数比U-Net少。由Lou等人(2021)提出的DCUNet，分析了经典UNet和最近的MultiResUNet (Ibtehaz and Rahman, 2020)架构，然后设计了双通道CNN块，以更少的参数提供更有效的特征。然而，所有这些网络都遵循并依赖于u型网络的结构。更重要的是，仍然有进一步减少参数和浮点操作(flop)的空间。考虑到这些限制，本文分析了UNet体系结构。根据实验结果，提出了半unet网络模型。综上所述，本文的主要贡献如下:(1)实验表明，U-Net的出色分割性能，类似于特征金字塔网络(FPN)，来自于编码器中的分而征服策略，而不是解码器中的特征融合。(ii)提出了一种简单高效的非对称架构HalfUNet，该架构采用三种策略降低网络复杂性，包括通道号统一、全尺度特征融合和Ghost模块。(iii)使用三个医学图像分割数据集来比较Half-UNet、UNet和U-Net变体。实验表明，Half-UNet达到了与U-Net及其变体相当的结果，与U-Net相比，参数至少减少了98.6%，FLOPs减少了81.8%。(iv)我们发现U-Net和UNet3+在参数和FLOPs上存在异常差距。通过对网络结构和公式的分析，明确了产生这种异常现象的原因，也揭示了半unet要求更少参数和FLOPs的原因。

2. U-Net的实验与分析

尽管U-Net得到了广泛的应用，但u形对称框架是否最优的问题仍然存在，包括u形结构的哪一部分在实验结果中占主导地位。最近，Chen等人(2021)对多入多出(MiMo)、单入多出(SiMo)、多入单出(MiSo)和单入单出(SiSo)编码器进行了比较实验。实验表明，SiMo编码器几乎可以达到与MiMo编码器(如FPN;Lin et al, 2017)。这一结果表明，使用多尺度特征融合的优势远远小于分治策略的优势。U-Net的组网结构类似于FPN。分治策略体现在U-Net的编码器中，它将输入图像分成五个不同尺度的特征映射输出到解码层。另一方面，特征融合策略体现在U-Net的解码器中，该解码器在运行4次相同尺度的特征融合后，将来自编码器的5个不同尺度的特征图转换为单尺度的特征图。目前尚不清楚UNet的优势是否主要来自于分而治之的策略，类似于FPN。

为了研究U-Net编码器和解码器的影响，如图1所示，我们将U-Net的编码器和解码器视为编码器。然后，通过设计单个解码器对C1到C16的特征进行聚合，其结构与UNet3+中的全尺寸特征聚合相同。之后，为了防止设计的解码器影响实验结果，我们还使用了图1C中的U-Net完整结构作为编码器。实验结果如表1所示。正如预期的那样，编码器(A)可以达到与编码器(C)相当的性能，这表明UNet的解码器中缺少特征融合对实验结果没有显著影响。另一方面，编码器(B)的性能明显下降，说明UNet编码器的分而治之策略主导了实验结果。总之，特征融合的好处不如分而治之的好处显著。也就是说，如果对UNet的特征融合部分进行简化，仍然可以得到可比较的分割结果。

图1 |不同类型的编码器示意图，编码器的结构(A-C)分别来源于UNet的编码器、解码器和全结构。C1表示与输入图大小相同的特征图，C2、C4、C8、C16表示编码器的输出特征，下采样率为{2,4,8,16}。黄色的下(上)箭头表示下采样(上采样)，右边的粗(细)箭头表示卷积(复制)。

图2 | UNet3+第三解码器层全尺寸聚合特征图构建示意图X1En(X1De)到X5En(X5De)分别表示第一层到第五层编码器(解码器)的特征映射。

表1 |不同编码器的实验结果。

3 方法

受上述观察结果的启发，我们得出结论，可以简化UNet的解码器以降低模型的复杂性。例如，U-Net中的四种特征融合可以替换为中使用的全尺寸特征聚合UNet3 +。然而，如图2所示，在特征聚合之前添加了额外的3×3卷积。此外，连接操作需要更多的内存开销和计算。为了解决这些问题，Half-UNet被提出，如图3所示。首先，HalfUNet中的通道号是统一的。这样既简化了网络，又有利于解码器的特征融合。然后，为了避免全尺度特征聚合需要额外的参数和FLOPs，提出了全尺度特征融合来取代U-Net中的四种相同尺度特征融合。最后，引入Ghost模块(Han et al .， 2020)，以较低的成本生成等效的特征映射。

图3 | Half-UNet架构输入图像的大小详见表2。矩形上方的数字表示特征映射通道的数量。

3.1 统一通道数

在U-Net和UNet3+的每个下采样步骤中，特征通道的数量增加了一倍，增强了特征表达的多样性。然而，这增加了模型的复杂性，特别是在UNet3+中。如图2所示，由于通道数量不等，必须在最大池化(或双线性上样)后添加3 × 3 Conv来统一通道，此外，增加的3 × 3卷积增加了所需的参数和FLOPs。另一方面，在Half-UNet中，所有特征映射的通道数是统一的，这减少了卷积操作中的滤波器数量，并且由于解码器不需要添加任何额外的3×3卷积，因此有助于解码器的特征融合。

3.2 全尺度特征融合

U-Net和UNet3+都使用连接操作进行特征融合。连接操作是一种直观的特征融合方法，但它们也需要更多的内存开销和计算。ResNet (He et al, 2016)使用另一种特征融合方法加法运算，简单地执行身份映射，并将其输出添加到堆叠层的输出中。加法运算并没有增加描述图像的维度，而是增加了每个维度下的信息量，有利于最终的图像分割。更重要的是，加法操作不需要额外的参数或计算复杂性。提出的全尺度特征融合方法结合了不同尺度的特征图，可以在全尺度上捕获细粒度细节和粗粒度语义。如图3所示，首先将不同尺度的特征映射上采样到原始图像的大小，然后通过加法运算进行特征融合。

3.3 Ghost模块

在卷积过程中，所需的参数和FLOPs可以计算为

其中K是内核大小，Cin (Cout)是输入(输出)通道的数量，Hout (Wout)是输出映射的高度(宽度)。Han等人(2020)提出了Ghost模块，在使用廉价操作的同时生成更多的特征映射。图4显示了Ghost模块的示例。在Ghost模块期间(s = 2, s表示固有特征映射比例的倒数)，一半的特征映射是通过卷积生成的，另一半是通过深度可分卷积生成的。最后，将特征映射的两半连接起来，形成与输入相同维度的输出。因此，参数和flop可以计算为

例如，以图像大小为128 × 128的3×3卷积为例，输入和输出通道都是64。在在这种情况下，所需的参数和FLOPs分别为36.92 K和12.08 g，而使用Ghost模块时，所需的参数和FLOPs仅为18.78 K和0.61 g，因此在Half-UNet中使用Ghost模块可以减少所需的参数和FLOPs。

图4:卷积层和引入的Ghost模块的插图，用于输出相同数量的特征映射。8代表廉价操作。

4 实验和结果

4.1 数据集和数据增强

我们基于三个公共数据集验证我们的网络模型，如表2所示。在乳房x线摄影和左心室MRI数据集中可用的图像相对较少。因此，我们对这两个训练集的图像进行数据增强:每45°顺时针旋转一次，共7次，一次水平翻转，一次垂直翻转，使训练集中的图像数量增加10倍。

乳房x线摄影数据集来自美国南佛罗里达大学乳腺x线摄影筛查数字数据库(DDSM)数据库。对包含肿块的483个感兴趣的乳房x线摄影区域进行分类选择，其中400张作为训练集，83张作为测试集。

肺结节数据集来自LIDC-IDRI (Armato et al, 2011)肺结节公共数据库，包含1018例(4104张图像)。由于LIDC-IDRI仅对直径≥3mm的肺结节具有详细的轮廓坐标信息，因此我们选择直径≥3mm的肺结节的CT图像。然后，根据50%一致原则生成肺结节的真值。50%一致原则是指四分之二或以上的医生认为像素区域是肺结节，被认为是确定肺结节的金标准。最后，以7:3的比例将数据划分为训练集和测试集。

左心室MRI数据集由MICCAI 2009提供，包含多例心脏MRI扫描的短轴图像。MICCAI 2009共45例，分为3组，每组15例，其中缺血性心力衰竭4例，非缺血性心力衰竭4例，心肌肥厚4例，正常3例。其中30个案例(542张图片)作为训练集，15个案例(265张图片)作为测试集。所有左心室MRI病例均有心内膜，部分有心外膜。

4.3 评价指标

在本文中，从Dice系数，灵敏度和特异性来评估分割性能。Dice系数的计算方法为模型预测结果区域与groundtruth重叠区域面积的两倍，除以两者面积之和。Dice系数越高，则模型的预测结果与ground-truth越接近，图像分割结果也相对改善。设模型预测结果面积为P，乳腺肿块的真值为M，则Dice系数的计算为

灵敏度表示正确预测的所有正例的比例，并衡量分类器识别正例的能力。灵敏度的计算为

特异性表示预测正确的所有负例的比例，并衡量分类器识别负例的能力。特异性的计算为

4.4. 实验结果

我们将提出的Half-UNet与U-Net以及U-Net的变体在乳房x线摄影、肺结节、心内膜和心外膜识别的图像分割任务中进行比较。参数和flop作为网络需求的指标。

Dice系数被用作衡量网络分割性能的指标。表3总结了定量比较结果。对于乳房x线摄影和肺结节图像的分割，U-Net及其变体比Half-UNet有优势。另一方面，对左心室MRI图像的半unet分割进行了改进。此外，我们还删除了Half-UNet中的Ghost模块，表示为Half-UNet†。

“†”表示未使用Ghost模块，“*”表示未统一通道数。最好的结果以粗体突出显示。“_u”表示使用Upsampling2D + 3×3卷积策略进行特征融合。“_d”表示使用反卷积策略进行特征融合。

如表3所示，Half-UNet†在乳房x线摄影图像方面优于U-Net及其变体，在肺结节图像方面比Half-UNet更接近U-Net及其变体。然而，HalfUNet†在左心室MRI图像上的表现不如Half-UNet。对于Half-UNet，结果表明Ghost模块在左心室MRI图像上表现良好

对乳房x线摄影和肺结节成像效果较差。综上所述，Half-UNet(带和不带Ghost模块)与U-Net及其变体相比具有相似的分割精度，而参数和FLOPs分别降低了98.6%和81.8%。

为了继续研究均匀通道数和全尺寸特征融合对实验结果的影响，设计了Half-UNet∗†_u和Half-UNet∗†_d。与UNet及其变体类似，Half-UNet∗†_u和Half-UNet∗†_d的通道数在下采样后翻倍。由于信道数不同，在解码器中有两种特征融合策略:(1)Upsampling2D + 3×3卷积，即Half-UNet∗†_u和UNet3+所做的;(2)反卷积，这是Half-UNet *†_d和U-Net所做的。如表3所示，与Half-UNet†相比，Half-UNet∗†_u和Half-UNet∗†_d分别增加了所需的FLOPs和参数，但分割能力没有明显提高。下采样后通道数翻倍的策略增加了高级语义特征的通道数。然而，在医学图像分割中，高级语义和低级语义特征都很重要。这种不公平的添加特性的方式不会给网络带来显著的性能提升，反而会显著增加模型的复杂性，不符合成本效益。

与U-Net相比，Half-UNet∗†_u和Half-UNet∗†_d仅简化了特征融合部分，而其分割能力没有明显差异。这再次说明U-Net的有效分割能力主要来自于分而治之的策略，而不是特征融合。分治策略在图像尺度上将复杂的分割问题分解为多个子问题。最终，一个更有效的分割子问题的策略将提供更好的分割结果。

4.5 定性的比较

图5给出了Half-UNet、U-Net和UNet3+对左心室MRI图像分割能力的定性比较。三种网络的特征融合部分结构不同，因此将最后一次特征融合后的卷积层特征映射作为心内膜和心外膜柱。在心内膜柱中，Half-UNet特征图的ground-truth区域更加突出，完全被黑色区域覆盖。在心外膜柱中，U-Net和UNet3+的地物图在地真中心区域更为突出，但在心外膜柱中，U-Net和UNet3+的地物图在心外膜柱中更为突出不够完整，轮廓不明显。相比之下，Half-UNet的特征图的ground-truth等值线更加明显和完整。因此，Half-UNet可以更完整地分割心内膜和心外膜边界

“_left”和“_right”分别代表图6中黑色虚线的左右部分。

图5 |左心室MRI Half-UNet、U-Net和UNet3+的定性比较。心内膜和心外膜柱显示特征图。结果列为最终分割结果，其中黄色空心区域代表ground-truth，蓝色实线区域代表自动分割结果。

图6 | UNet3+与U-Net同部分架构图黄色粗箭头表示3×3卷积，蓝色粗箭头表示Ghost模块。三个子网用黑色虚线划分为左右两部分。(A) UNet3+的一部分，(B) U-Net的一部分，(C) half - unet的一部分

5 讨论

结果表明，Half-UNet的分割效率高于U-Net及其变体。

与u型结构模型相比，半u型模型具有更高的分割效率和相似的分割能力。另一个值得注意的结果是，UNet比UNet3+涉及更多的参数，但需要更少的FLOPs。

为了进一步分析半unet的高分割效率，我们截取了UNet3+、U-Net和Half-UNet的最后一个特征融合结构作为子网。如图6所示，每个子网络分为特征融合部分(左)和卷积部分(右)。以128×128 images为例，子网的参数和FLOPs如表4所示。在HalfUNet子网络的左侧，由于双线性上采样和加法都是线性操作，所以几乎不产生参数和计算。Half-UNet以最低的成本融合C1-C16的特征映射，简化了特征融合部分。在Half-UNet子网的右侧部分，由于输入通道数量较少(只有64个)和Ghost模块的使用，卷积的成本明显小于其他结构。

如表3所示，U-Net比UNet3+使用更多的参数，但使用更少的FLOPs。第一个原因是UNet比UNet3+有更多的频道。更多的通道需要更多的参数，由式(1)可以得出。

第二个原因是U-Net比UNet3+拥有更少的大尺寸特征地图。如图6所示，在UNet3+中，C2 - C16首先被上采样到128×128，总共有1984个大尺寸输入特征图。而且，后续的通道数比U-Net多。由式(2)可以推断，大尺寸特征映射中的这些卷积也需要大的FLOPs。与U-Net和UNet3+类似，Half-UNet∗†_d比Half-UNet∗†_u有更多的参数，而FLOPs更少。不同之处在于，由于反卷积核的大小较大，HalfUNet *†_d具有更多的参数。由于反褶积输入图像很小，因此将反褶积的联合方程FLOPs

使得Half-UNet∗†_d比Half-UNet∗†_u有更少的FLOPs。

相比之下，Half-UNet没有过多的通道或大尺寸的特征映射，也没有使用反卷积进行上采样。Half-UNet避免了上述三种网络的问题，大大减少了所需的参数和FLOPs。

对于小目标，比如乳房x光检查和肺部图像中发现的目标，通过廉价手术获得更多特征图的策略并不奏效。与Half-UNet(*†_u)一样，在增加卷积通道数后，结果显著改善。这表明这类目标需要更多的空间特征才能有效分割。以低成本提高卷积的特征多样性可能是未来研究的一个有希望的方向。

6 结论

在本研究中，我们发现U-Net在医学图像分割中的成功主要是由于其分而治之的解决方案，而不是特征融合。基于这一结论，提出了半unet，主要简化了特征融合部分。Half-UNet通过统一通道号、使用全尺寸特征融合和利用Ghost模块来简化网络的复杂性。通过与U-Net及其变体进行公平比较，可以证明Half-UNet的有用性。实验结果表明，提出的Half-UNet在分割性能上与U-Net及其变体相当，同时降低了网络复杂度。最后，通过分析U-Net和UNet3+中参数和FLOPs的差距，明确Half-UNet中参数和FLOPs减少的原因。