UNext翻译(UNext基于MLP的医学图像快速分割网络)(有那么一丢丢没看懂)

(发表在miccai期刊)

摘要

近年来,UNet及其最新扩展如TransUNet已成为领先的医学图像分割方法。然而,由于这些网络参数多、计算复杂且使用速度慢,因此不能有效地用于即时护理应用中的快速图像分割。为此,我们提出了一种基于卷积多层感知器(MLP)的图像分割网络UNeXt。我们以一种有效的方式设计了UNeXt,其中包s和潜伏阶段的MLP阶段。我们提出了一个标记化(切片)的MLP块,我们有效地标记和投影(关联)卷积特征,并使用MLP来建模表示。为了进一步提高性能,我们建议在向mlp输入的同时改变输入的通道,以便专注于学习局部依赖关系。在潜在空间中使用标记化mlp减少了参数的数量和计算复杂性,同时能够产生更好的表示来帮助分割。该网络还包括各级编码器和解码器之间的跳过连接。我们在多个医学图像分割数据集上对UNeXt进行了测试,结果表明我们将参数数量减少了72倍,计算复杂度降低了68倍,推理速度提高了10倍,同时也获得了比目前最先进的医学图像分割架构更好的分割性能

(让我通过一个示例来解释什么是MLP(多层感知器)和什么是标记化MLP。

假设我们有一个文本分类任务,我们需要判断一段文本是正面评价还是负面评价。我们使用一个简单的模型来处理这个任务。

  1. 普通的MLP:首先,我们考虑一个普通的MLP。在这个模型中,我们将整个文本编码为一个固定大小的向量,然后通过MLP进行分类。例如:

    • 输入:一段文本 "这部电影非常好看!"
    • 预处理:将文本转换为数字序列或词嵌入(例如:"这部电影非常好看!" -> [0.2, 0.5, -0.1, 0.8, ...])
    • MLP:将整个向量送入一个MLP,包括一个或多个全连接层,激活函数等。
    • 输出:模型输出正面评价或负面评价。

    在这种情况下,整个文本被视为一个输入,并且MLP将应用于整个输入向量。

  2. 标记化MLP:现在,让我们考虑标记化MLP。在这个情况下,我们会将文本分成标记或词语,并且每个标记都会通过相同的MLP层进行独立的处理。例如:

    • 输入:一段文本 "这部电影非常好看!"
    • 预处理:将文本分成标记:["这部", "电影", "非常", "好看", "!"]
    • MLP(标记化):将每个标记分别送入相同的MLP层。
    • 输出:每个标记都会有一个输出,然后可以对这些输出进行汇总或合并以进行最终的分类决策。

在标记化MLP中,每个标记都会通过相同的MLP进行处理,这意味着MLP的权重和参数是共享的,但它们独立应用于每个标记。这有助于模型更好地捕捉文本中的局部信息和特征,而不仅仅是整个文本的全局信息。

总之,标记化MLP允许模型在处理序列数据时更细粒度地考虑每个标记,而不仅仅是整个序列,这在自然语言处理等任务中非常有用。

)

1 介绍

医学成像解决方案在医疗保健领域的诊断和治疗中发挥了关键作用。医学成像应用中的一个主要任务是分割,因为它对计算机辅助诊断和图像引导手术系统至关重要。在过去的十年中,文献中的许多工作都集中在开发高效和鲁棒的分割方法。UNet[17]是一项具有里程碑意义的工作,它显示了具有跳过连接的编码器-解码器卷积网络对于医学图像分割的效率。近年来,UNet已成为几乎所有主要医学图像分割方法的支柱。继UNet之后,还有一些关键扩展,如unet++ [29], UNet3+ [13], 3D UNet [7], V-Net [16], Y-Net[15]和KiUNet[21,22]已经被提出。最近,许多基于transformer的网络被提出用于医学图像分割,因为它们学习了对图像的全局理解,这有助于分割。TransUNet[6]将ViT架构[10]修改为用于二维医学图像分割的UNet。其他基于transformer的网络如MedT[20]、TransBTS[25]和UNETR[11]也被提出用于医学图像分割。请注意,上述几乎所有的工作都集中在提高网络的性能上,但没有太多关注计算复杂性、推理时间或参数数量,而这些在许多现实世界的应用中是必不可少的。由于其中大多数用于实验室环境中的分析,因此使用具有高计算能力(如gpu)的机器进行测试。这有助于加快推理的速度,也有助于适应大量的参数

近年来,医学成像解决方案已经从实验室转移到床边。这被称为即时成像,因为测试和分析是在病人身边完成的。即时成像[23]帮助临床医生扩大服务选择,改善患者护理。它有助于减少病人去放射中心的时间和程序。围绕护理点成像的技术改进正在带来更高的患者满意度。近年来,即时医疗设备的使用一直在增加。例如,即时超声(POCUS)设备[1]已被证明可用于快速检查肺部胸膜不规则性、心脏血流动力学流量和自动膀胱体积计算。基于手机摄像头的图像也被用于检测和诊断皮肤状况[2]。磁共振成像仪(MRI)也被开发用于床边操作和快速分析[3]。这些最近的诊断发展有助于在医疗点清晰快速地获取医学图像,如图1所示。分割、分类和注册等任务也与这些设备集成在一起,以帮助患者和临床医生加快诊断过程。这些任务的主要基于深度学习的解决方案(如UNet和TransUNet)具有固有的计算开销大量的参数使它们难以在护理点应用中使用。在这项工作中,我们专注于解决这个问题,并设计了一个高效的网络,该网络具有更少的计算开销,更少的参数数量,更快的推理时间,同时保持良好的性能。设计这样一个网络对于适应医学影像从实验室到床边的转变趋势至关重要。为此,我们提出了使用卷积网络和(多层感知器)mlp设计的UNeXt。

图1所示。开发UNeXt的动机:随着医疗成像解决方案越来越适用于医疗点,重点是使深度网络轻量化、快速,同时又高效。(a)护理点医疗干预工作流程。(b)最近的医学成像发展:POCUS设备[1]和(c)基于手机的皮肤病变检测和识别应用[2]。

最近,基于mlp的网络[27,19,14,18]也被发现能够胜任计算机视觉任务。特别是MLP-Mixer[18],这是一种基于全mlp的网络,计算量更少,性能与transformer相当。受这些工作的启发,我们提出了基于卷积和mlp的网络UNeXt。我们仍然遵循UNet的5层深度编码器-解码器架构,并使用跳过连接,但改变了每个块的设计。我们在UNeXt中有两个阶段——卷积阶段和MLP阶段。我们在网络的初始和最终块中使用卷积核数量较少的卷积块。在瓶颈中,我们使用了一种新的token化MLP (TokMLP)块,它可以有效地保持更少的计算,同时也能够建立良好的表示模型。Tokenized MLP将卷积特征投影到抽象标记中,然后使用MLP学习有意义的信息进行分割。我们还在mlp中引入了移位操作(相当于是滑动窗口),以提取不同轴向移位对应的局部信息。由于标记化特征的维数较少,mlp比卷积或自关注和变形更简单;我们能够在保持良好性能的同时显著减少参数数量和计算复杂度。我们在ISIC皮肤病变数据集[8]和乳腺超声图像(BUSI)数据集[4]上评估了UNeXt,并表明它比最近的通用分割架构获得了更好的性能。更重要的是,与TransUNet相比,我们减少了72倍的参数数量,减少了68倍的计算复杂度,并将推理速度提高了10倍,使其适合于即时医疗成像应用。

(什么叫标记化MLP会将卷积特征投影到抽象标记中,然后使用MLP学习有意义的信息进行分割)

示例文本:假设我们有以下一段文本评论,其中标记已经分好了:

文本: "这部电影非常好看!"

标记: ["这部", "电影", "非常", "好看", "!"]

卷积操作:我们使用一维卷积操作来捕捉局部特征。假设我们有一个卷积核(窗口大小为3),它在文本上滑动。卷积操作会计算每个窗口中的局部特征。

例如,卷积核从文本的开头开始,覆盖标记 ["这部", "电影", "非常"]。它可以识别到这个窗口中包含了一个形容词 "非常",这是一个积极的修饰词。

接着,卷积核向右滑动一个标记,覆盖标记 ["电影", "非常", "好看"]。这时它可能会注意到 "电影" 和 "好看" 之间的关系,这是一个积极的评价。

将卷积特征与标记相关联:在卷积操作的每一步,生成的局部特征与当前窗口中的标记相关联。例如,生成的第一个特征可能与标记 "非常" 相关联,第二个特征可能与标记 "好看" 相关联。

整合卷积特征:一旦卷积操作完成,我们会得到一系列卷积特征,每个特征都与文本中的一个标记相关联,并且捕获了局部信息。然后,这些卷积特征可以被传递到后续的层,例如MLP,以进行特征整合和学习。

在这个示例中,卷积操作帮助我们捕获了文本中的局部语义信息,而不仅仅是考虑整个文本的全局特征。这对于文本分类等自然语言处理任务非常有用,因为它允许模型更好地理解文本中的复杂结构和含义。整个过程将卷积特征与每个标记相关联,以提高模型的性能。

综上所述,本文做出了以下贡献:1)我们提出了UNeXt,第一个基于卷积mlp的图像分割网络。2)我们提出了一种新的具有轴向移位(轴向移位是指模型在特定轴上移动或调整位置,以便在计算特征或注意力时能够覆盖输入数据的不同部分)的标记化MLP块,以有效地学习潜在空间的良好表示。3)在参数少、推理速度快、计算复杂度低的情况下,成功地提高了医学图像分割任务的性能。

2  UNext

UNeXt是一个编码器-解码器架构,有两个阶段:1)卷积阶段,和2)标记化MLP阶段。输入图像通过编码器,其中前3个块是卷积的,接下来的2个是Tokenized MLP块。解码器有2个Tokenized MLP块,后面跟着3个卷积块。每个编码器块将特征分辨率降低2,每个解码器块将特征分辨率提高2。

跳过连接是也包括在编码器和解码器之间。每个块上的通道数是一个超参数,表示为C1到C5。对于使用UNeXt架构的实验,除非另有说明,否则我们遵循C1 = 32, C2 = 64, C3 = 128, C4 = 160和C5 = 256。请注意,这些数字实际上小于UNet及其变体的过滤器数量,这有助于减少参数和计算的第一个更改。

                                        图2所示。提议的UNeXt体系结构概述。

卷积的阶段:每个卷积块配备一个卷积层,一个批处理归一化层和ReLU激活。我们使用内核大小为3 × 3, stride为1,padding为1。编码器中的转换块使用池窗口为2 × 2的最大池化层,而解码器中的转换块由双线性插值层组成,用于对特征映射进行上采样。我们使用双线性插值代替转置卷积,因为转置卷积基本上是可学习的上采样,并有助于获得更多可学习的参数。

Shifted MLP:在移位MLP中,我们首先在标记之前移动卷积特征的通道轴。这有助于MLP只关注conv特征的某些位置,从而诱导块的局域性。这里的直觉类似于Swin transformer[5],其中引入了基于窗口的注意力,为完全全局的模型添加了更多的局部性。由于Tokenized MLP块有2个MLP,我们像轴向注意一样,在一个块中跨宽度移动特征,在另一个块中跨高度移动特征[24]。我们把这些特征分成h个不同的,根据指定的轴对它们进行分区并移动j个位置。这有助于我们创建沿轴引入局部性的随机窗口。我们把这些特征分成h个不同的部分,并根据指定的轴移动它们j个位置。这有助于我们创建沿轴引入局部性的随机窗口。

图3所示。转移操作。在标记之前,特征在高度和宽度上依次移动,以诱导网络中的窗口局部性。

Tokenized MLP 阶段:

在标记化的MLP块中,我们首先转移特征并将其投影到标记中。为了标记化,我们首先使用内核大小为3,并将通道数更改为E,其中E是嵌入维度(标记数),这是一个超参数。然后,我们将这些令牌传递给移位的MLP(跨宽度),其中MLP的隐藏维度是超参数h。接下来,这些特征通过深度卷积层(DWConv)传递。我们在这个块中使用DWConv有两个原因:1)它有助于编码MLP特征的位置信息。文献[26]表明,MLP块中的Conv层足以对位置信息进行编码,并且实际上比标准的位置编码技术性能更好。当测试和训练分辨率不相同时,需要插入像ViT中的位置编码技术,这通常会导致性能下降。2) DWConv使用较少的参数,因此提高了效率。然后我们使用GELU[12]激活层。我们使用GELU而不是RELU,因为它是一个更平滑的选择,并且发现它的性能更好。此外,像ViT[10]和BERT[9]这样的最新架构已经成功地使用了GELU来获得改进的结果。然后,我们通过另一个移位的MLP(跨高度)传递特征,该MLP将维度从H转换为o。我们在这里使用残差连接并添加原始标记作为残差。然后我们应用层归一化(LN)并将输出特征传递给下一个块。LN比BN更受欢迎,因为沿着令牌进行规范化比在token化的MLP块中跨批进行规范化更有意义。

token化MLP块中的计算可以总结为:

其中T为令牌,H为高度,W为宽度,DW Conv为深度卷积,LN为层归一化。请注意,所有这些计算都是在嵌入维数H上进行的,这明显小于特征映射的维数H /N × H/ N,其中N是取决于块的2倍。在我们的实验中,除非另有说明,否则我们将H设为768。这种设计Tokenized MLP块的方法有助于编码有意义的特征信息,并且在计算或参数方面贡献不大。

3 实验与结果

数据集:为了使我们的实验尽可能接近护理点成像,我们选择了国际皮肤成像合作(ISIC 2018)[8]和乳房超声图像(BUSI)[4]数据集来基准测试我们的结果。ISIC数据集包含相机获取的皮肤图像和相应的皮肤病变区域分割图。ISIC 2018数据集由2594张图像组成。我们将所有图像的大小调整为512 × 512的分辨率。BUSI由正常、良性和恶性乳腺癌的超声图像以及相应的分割图组成。我们只使用良性和恶性图像,结果总共647张图像被调整为256 × 256的分辨率。

实验细节:

我们使用Pytorch框架开发了UNeXt。我们使用二元交叉熵(BCE)和骰子损失相结合的方法来训练UNeXt。预测值y与目标值y之间的损失L表示为:

我们使用学习率为0.0001,动量为0.9的Adam优化器。我们还使用了最小学习率高达0.00001的余弦退火学习率调度程序。批量大小设置为8。我们总共训练了400个epoch的UNeXt。我们在数据集上执行80-20随机分割三次,并报告平均值和方差。

性能比较:

我们将UNeXt与最近广泛使用的医学图像分割框架的性能进行了比较。特别是,我们比较了卷积基线,如UNet [17], UNet++[29]和ResUNet[28]。我们还比较了最近的变压器基线,如TransUNet[6]和MedT[20]。请注意,我们关注的是在分割性能(F1分数和IoU)以及参数数量、计算复杂性(以GFLOPs为单位)和推理时间(以ms为单位)方面与基线进行比较。

我们将结果制成表1。可以看出,UNeXt的分割性能优于所有基线,紧随其后的是TransUNet。改善在p < 10−5时具有统计学意义。然而,这里最值得注意的一点是,UNeXt的计算量比TransUNet少得多,因为UNeXt没有任何注意力块。计算是根据浮点运算符(flop)的数量来计算的。我们注意到,UNeXt的GFLOPs最低,为0.57,而TransUNet的GFLOPs为38.52,UNet的GFLOPs为55.84。与所有基线相比,它也是最轻量级的网络。特别是,我们注意到UNeXt只有1.58 M个参数,而TransUNet有105.32 M个参数。

我们还给出了在CPU上操作时的平均推理时间。请注意,我们特别在CPU而不是GPU中对推理时间进行了基准测试,因为护理点设备大多在低计算能力上运行,并且通常不具有GPU的计算优势。我们对10张分辨率为256 × 256的图像进行了前馈,并报告了平均推理时间。用于基准测试的CPU是Intel Xeon Gold 6140 CPU,工作频率为2.30 GHz。值得注意的是,我们对swing - unet进行了实验[5],但发现在小数据集上收敛存在问题,导致性能不佳。但是,swing - unet的参数很重,有41.35 M个参数,计算也很复杂,有11.46 GFLOPs。

                                表1。与卷积基线和变压器基线的性能比较。

在图4中,我们绘制了F1分数与glop、F1分数与推理时间以及F1分数与参数数量的比较图。这里使用的F1分数对应于ISIC数据集。从图表中可以清楚地看出,UNeXt和TransUNet是分割性能最好的方法。然而,UNeXt在计算复杂性、推理时间和参数数量方面明显优于所有其他网络,这些都是医疗点成像应用需要考虑的重要特征。在图5中,我们展示了UNeXt的样本定性结果以及其他基线。可以观察到,与其他方法相比,UNeXt产生了有竞争力的分割预测。

图4所示。比较图表。y轴对应F1分数(越高越好)。x轴对应GFLOPs、推理时间和参数个数(越小越好)。可以看出,相比其他网络,UNeXt是效率最高的网络。

图5所示。定性比较。第1行- ISIC数据集,第2行- BUSI数据集。(一)输入。(b) UNet (c) UNet++ (d) MedT (e) TransUNet (f) UNeXt和(g) Ground Truth的预测。

4 讨论

消融实验:

我们进行了消融研究(如表2所示),以了解UNeXt中每个模块的单独贡献。我们首先从原始UNet开始,然后减少过滤器的数量,以减少参数的数量和复杂性。我们看到了性能的降低,但参数并没有减少多少。接下来,我们减少深度,只使用3级深度架构,这基本上是UNeXt的转换阶段。这大大减少了参数的数量和复杂性,但也使性能降低了4%。现在,我们引入了标记化的MLP块,它在极大地提高性能的同时,将复杂度和参数增加了最小值。接下来,我们添加了[26]中使用DWConv的位置嵌入方法,并看到了更多的改进。接下来,我们在mlp中添加移位操作,并表明在标记化之前移动特征可以提高性能,而不会增加任何参数或复杂性。由于移位操作不参与任何加法或乘法操作,因此它不会增加任何flop。我们注意到,在两个轴上移动特征会产生最佳性能,这是UNeXt的精确配置,具有最小的参数和复杂性。请注意,上述所有实验都是使用ISIC数据集的单个折叠进行的。

渠道数分析:

信道数是UNeXt的一个主要超参数,它直接影响到网络的参数数、复杂度和性能。在表3中,我们在ISIC的单折叠上进行实验,展示了另外两种不同的UNeXt配置。可以观察到,增加通道(UNeXt-L)进一步提高了性能,同时增加了计算开销。虽然减少它(UNeXt-S)会降低性能(降低幅度并不大),但我们得到了一个非常轻量级的模型。

与MLP-Mixer的区别:

MLP-Mixer使用全mlp架构进行图像识别。UNeXt是一种基于卷积和mlp的图像分割网络。MLP-Mixer侧重于通道混合和令牌混合,以学习良好的表示。相比之下,我们提取卷积特征,然后对通道进行标记,并使用一种新的标记化mlp,使用移位的mlp对表示进行建模。值得注意的是,我们将MLPMixer作为编码器和普通卷积解码器进行了实验。分割性能不是最优的,它仍然很重,大约有11个参数。

5 结论

在这项工作中,我们提出了一种新的深度网络架构UNeXt,用于医学图像分割,专注于护理点应用。UNeXt是一种基于卷积和mlp的架构,其中有一个初始转换阶段,然后是潜在空间中的mlp。具体来说,我们提出了一个带有移位MLP的标记化MLP块,以最小的复杂性和参数有效地建模表示。我们在多个数据集上验证了UNeXt,实现了更快的推理、更低的复杂性和更少的参数,同时也实现了最先进的性能。

  • 4
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值