U-MLP: MLP-based ultralight refinement network for medical image segmentation

医学分割哇哇哇哇哇哇哇哇哇

已于 2024-05-24 10:55:44 修改

阅读量672

点赞数 5

文章标签：神经网络深度学习 1024程序员节

于 2023-10-23 18:50:17 首次发布

本文链接：https://blog.csdn.net/weixin_45622568/article/details/133987277

版权

U-MLP:基于mlp的医学图像分割超轻细化网络

摘要：卷积神经网络(CNN)和Transformer在计算机辅助诊断和智能医疗中发挥着重要作用。但CNN无法获得远程依赖，Transformer在计算复杂度和参数量大等方面存在不足。近年来，与CNN和Transformer相比，基于多层感知器(multilayer Perceptron, MLP)的医学图像处理网络能够以更小的计算量和参数量实现更高的精度。因此，在这项工作中，我们提出了一个编码器-解码器网络，U-MLP，基于ReMLP块。ReMLP块包含一个重叠滑动窗口机制和一个多头门自注意(Multi-head Gate Self-Attention, MGSA)模块，其中重叠滑动窗口可以像卷积一样提取图像的局部特征，然后结合MGSA将从多个维度提取的信息进行融合，获得更多的上下文语义信息。同时，为了提高模型的泛化能力，我们设计了模糊区域细化(VRRE)模块，该模块利用网络推理生成的主要特征创建局部参考特征，从而通过推断局部特征与标记特征之间的接近度来确定像素类。大量的实验评估表明，U- MLP提高了分割性能。在皮肤病变、脾脏和左心房三个基准数据集的分割中，我们的U-MLP方法在测试集上的骰子相似系数分别为88.27%、97.61%和95.91%，优于7种最先进的方法。

1. 介绍

医学图像分割通常用于量化目标器官的大小和形状，疾病量化，治疗计划和疾病干预[1,2]。传统的医学图像分割方法主要有阈值法[3,4]、分水岭法[5,6]、图谱法[7,8]等。近年来，深度学习方法已经成为一种极具竞争力的替代方法，并取得了显著的优势，因此深度学习方法在医学图像分割方面取得了巨大的成功[9,10])。

CNN是医学图像分割中最具代表性的深度学习方法之一，如器官分割[11-13]、脑MRI成像分割[14,15]、组织病理学成像分割[16-19]等。尽管CNN在通过训练端到端构建分层任务特定特征表示方面具有强大的性能，但在获取全局特征b[20]方面仍然是一个挑战。在多年来，人们提出了各种注意机制方法来限制这一局限性。注意机制可以在网络推理过程中直接获得全局和局部连接，从通道注意和空间注意(如SE-Net[21]、GE-Net[22])，到混合注意(如CBAM[23]、A2-Nets[24])，再到注意机制的另一种变体——自注意机制(如DA-Net[25]、Transformer[26])。与CNN相比，Transformer可以有效地获取全局信息，并通过多头机制将其映射到多个空间，使模型能够对图像特征进行建模。此外，由于多头机制的存在，可以生成可解释的模型，各个注意头可以尝试不同的拟合方法，从而找到最优解[27]。然而，Transformer在获取局部信息方面的能力较差，因此它更像是与CNN的互补关系，这也催生了许多将CNN和Transformer结合起来处理医疗的模型

例如TransUNet[28]和MT-UNet[29]。然而，已经证明，虽然CNN和Transformer都足以在处理图像时获得更好的性能，但基于mlp的架构在模型尺寸和计算成本上都明显更小，同时在精度方面与最先进的模型(如gMLP [30]， resMLP[31])相当。

受这些工作的启发，我们提出了一种基于MLP结构的编码器-解码器架构U-MLP，用于医学图像分割任务，其编码器有四个不同大小的主MLP块(图1)。

图1所示。我们的U-MLP概述。医学图像被分割成许多小块。提出的MGSA以patch的特征作为输入标记，并使用滑动窗口捕获视觉空间结构。然后通过VRRE模块对解码器后的特征进行细化，最终得到边缘更好的分割图。

它包含一个MGSA模块，每个模块都使用重叠的滑动窗口来获得更充分的本地信息。同时，它是多头机制的门控开关，使模型具有学习位置信息的能力。然后，我们设计VRRE来完成对第一步生成的初始特征进行不确定像素分类的细化任务。该方法从全局上下文聚合和不确定分割优化两方面增强了网络的建模能力，从而大大提高了分割的精度。最后，我们在三个数据集上验证了我们的方法的有效性，包括国际皮肤成像协作(ISIC 2018);来自医学分割十项全能(MSD)的脾脏和左心房数据集。实验表明，我们的方法在这三个数据集上都优于现有的方法。综上所述，本文做出了以下贡献:

1)提出基于mlp的无卷积医学图像分割网络U-MLP。

2)我们提出了一种新的MLP块ReMLP，它具有重叠的滑动窗口和MGSA，以有效地访问上下文语义信息。

3)提出VRRE模块对推理过程中的不确定像素进行重分类。

4)在参数少、推理速度快、计算复杂度低的情况下，成功地提高了医学图像分割任务的性能。

2 相关工作

2.1.基于深度学习的医学图像分割方法

基于U-Net[33]和DeepLab[34]的Fully Convolutional Network (FCN)[32]框架被广泛应用于医学图像分割。

UNet的一些变体如UNet++[35]、MultiResUNet[36]、CE-Net[37]等在医学图像分割任务中也有很好的表现。然而，上述这些模型在全球语境信息的整合方面并没有取得实质性的突破。

2.2.语境信息获取模块

近年来，各种注意机制被广泛应用于医学图像分割模型中，其中基于Transformer的自注意机制由于能够捕获远程特征之间的相关性，在获取全局特征信息方面表现优异，如Vision Transformer[38]和Swin Transformer[39]。但是，它们在位置信息编码和获取局部信息方面也存在一定的局限性。在这项工作中，我们结合了一种新的滑动窗口机制，该机制可以在不使用卷积的情况下捕获特征的局部信息。它还与MGSA集成，以提高其在编码位置信息、合并不同尺度的上下文信息方面的性能，并在编码阶段实现更稳定的图像特征信息提取。

2.3. 辅助分级模块

由于下采样的存在，大多数编码器-解码器结构的框架总是伴随着信息缺失，导致网络产生大量的不确定像素。为了解决这一问题，张悦等人使用局部置信度卷积对边缘的不确定像素进行修复，在局灶性肝脏病变[40]的CT数据集上取得了非常高的精度。在这项工作中，我们使用置信度图定义不确定性的比例，然后设计残差网络来生成局部参考特征。

进一步，利用局部参考特征与原始特征的相似度来细化不确定像素的分类(图4)。

3. 方法。

3.1 概述

为了获得分割任务在不同尺度上的关联信息，我们在模型中引入了基于滑动窗口的多头门控注意来生成多尺度表示。下面是我们的U-MLP模型的体系结构设计，概述如下

图2所示。提出的U-MLP体系结构概述。U-MLP是一个标准的编码器-解码器结构(a)，其中编码器中的每个阶段由一个ReMLP块组成，每个ReMLP块包含一个滑动多头门注意模块(MGSA) (b)。

图3所示。滑动窗口方法的图示。我们将展示一个具有3x3标记映射和3x3滑动窗口(滑动步长为1)的示例。紫色标记表示标记映射的零填充。通过滑动窗口生成新的重叠窗口。

图4所示。提出的模糊区域细化模块的详细结构。

如图2a所示。U-MLP的编码器主要由四个阶段组成，每个阶段具有相似的结构，每个阶段由一个ReMLP Block组成，摒弃了传统神经网络池化降维的形式，采用patch合并的方式实现相同的功能，在一定程度上减少了计算量。为了更好地获取目标的局部信息，我们在每个块中设计了一个单独的滑动窗口多头门控注意模块，而不是卷积神经网络。卷积运算可以在融合不同尺度信息的同时更好地获取局部信息。解码器采用与编码器相似的结构，将特征矩阵减少4倍上采样，并结合编码器(通过Concat)获得高级特征操作)，直到输出一个称为“模糊分割特征”的特征。该特征是U-MLP在初步学习医学特征后得到的中间特征矩阵。我们提出VEER进一步细化特征，最后给出模型的分割结果。

3.2. ReMLP块

目前的医学图像分割模型忽略了多维度下的特征融合，导致获取的特征信息不足。为了克服这一限制，在我们的工作中，我们提出了一种基于全MLP的ReMLP块结构，放弃了原来只使用映射关系获取建模信息的结构。我们采用基于滑动窗口的MGSA，滑动窗口结构侧重于在网络学习过程中收集局部信息，多头门控注意将不同尺度的特征信息整合，然后与局部信息结合，提高特征获取的准确性和效率。

重叠滑动窗口。我们在图3中展示了滑动窗口方法的简单说明。我们使用重叠滑动窗口来促进网络学习特征之间的局部相关性。在四个ReMLP block中，给出i表示block号，我们给出二维输出token映射xi∈RHi×Wi×Ci，重叠窗口数为H′i ×W′i，可以表示为

其中p为填充大小，k为滑动窗口的大小，s为滑动窗口的步幅大小。对于初始参数的设置，我们将p = 1, k = 3, s = 1，这更接近于传统的卷积形式，从而保证了较强的局部建模能力。

多头门自我注意。图2b显示了我们提出的MGSA的结构，为了捕获更多的局部信息，我们使用中心补丁作为查询，并计算窗口周围补丁的注意图。传统的多头自注意机制在视觉模型上取得了优异的效果，但与大规模的分割数据集相比，由于大多数医学图像数据集偏小，通常难以学习到特征的位置偏差。因此，我们提出了一种改进的多头注意机制来控制位置偏误对局部依赖的影响。传统多头注意机制中的自注意计算为

式中，Q、K、V∈RHW×dtoken分别表示查询矩阵、键矩阵和值矩阵，HW和dtoken分别表示令牌个数和令牌维度。

与CNN只捕获局部关系不同，自注意机制可以很好地捕获整个feature map中相关但非局部的上下文信息。然而，这种机制不能准确地捕获特征映射的位置信息，因此在参考文献[42]中通过在自注意中加入位置编码，提高了对位置信息的亲和力。详情如下

这句话描述了自注意力机制，其中Q、K、V分别表示查询、键和值矩阵，它们都属于R^Hw×dtoken，其中Hw和dtoken分别代表标记的数量和标记的维度。可学习向量RQ a− i,b− j和RK a− i,b− j属于R^dQ，它们用作Q和K的相对位置编码。RV a− i,b− j属于R^dOUT，用作V的相对位置编码。相对关注首先通过定义ij到N(i, j)中每个位置ab的相对距离来开始。这种相对距离在不同维度上进行分解，因此N(i, j)中的每个元素ab都接收到两个距离：一个是行偏移a−i，另一个是列偏移b−j。这种自注意力机制能够实现长距离的交互，并提供精确的位置信息。

然而，由于医疗数据集普遍较小，上述自注意机制难以在远距离信息交互中充分发挥作用，导致医学图像处理时位置编码不准确。因此，我们在此基础上增加了门控装置，进一步增强了远程信息交互能力。在我们的MGSA中，自我关注被计算为

其中q∈R1×dtoken为二维令牌映射的中心令牌的查询矩阵，其他表达式保持不变，我们在其中加入了门控机制，GQ、GK、GV∈R1×dtoken为可学习参数，通过控制学习到的相对位置的位置编码信息来控制其对局的依赖影响。一般来说，一旦准确地学习了位置编码信息，门控机制就会为该位置编码分配更高的权重值，以获得更好的局部建模能力。与传统的多头注意类似，我们认为多头门注意可以使模型共同关注来自不同位置的不同子空间的信息，因此我们也引入了多头机制来增强MGSA的建模能力。

其中投影为参数矩阵WQ i∈Rdtoken×dtoken, WKi∈Rdtoken×dtoken, WVi∈Rdtoken×dtoken, WO∈Rhdtoken×dtoken。H是投影头的个数。

3.3. 模糊区域细化模块

在CNN的分割任务中，由于大多数分割任务中上下文语义信息不足的问题，CNN自身的局限性导致了分割边缘的模糊。为了解决上述问题，我们参考[40]的研究，提出了一个模糊区域细化模块。该模块的具体结构如图4所示。该模块主要包含一个新的细化机制。

对于每个被分割的对象i,i∈(1, L)，我们有一个初始的被分割对象Mi对于每个像素x，在[0,1]中都有一个对应的地图Mi(x)， Mi(x)表示像素x是l之一的可能性。我们选择最大的Mi(x)的索引作为标记。定义了不确定性的计算公式，并构造了用最大似然值Mmax和最小似然值Mmin计算不确定性的模块。

其中Mmax, Mmin∈[1，+∞]。根据上式，不确定性可以限定在(0,1)之间。不确定性越小，置信度越高。

模糊区域细化机制。对于每个像素x，我们设计一个残差结构Res，在其邻域上生成参考特征，y(x) = {yi(x) i∈[1,L]}， L表示被分割对象的个数。通过判断局部特征local(x)与参考特征yi(x)的接近程度，如果该局部特征与参考特征yi(x)接近，则可以说像素x很可能被分类为目标i。参考特征yi(x)在小邻域N(p)内加权平均计算，

具体来说，通过比较local(x)和yi(x)之间的相似度，为每个像素生成掩码z。

zi(x) = si(x)Res(local(x)， yi(x))(7)其中si(x) = maxq∈N(x)Mi(x)为用于度量细化机制的置信度分数，最终分割函数为Fi(x) = Mi(x) + U(x)zi(x) (8)

3.4. 损失函数

我们的损失函数主要包括二元交叉熵(BCE)和骰子损失。预测值与目标值之间的损失表示为:

式中Lcross表示交叉熵损失，lice表示骰子损失，λl为二值交叉熵权值。

4 实验

4.1. 数据集

为了使我们的实验尽可能接近即时成像，在一类分割任务中，我们选择国际皮肤成像协作(ISIC 2018) (https://challenge.isic-archive.com/data/)和医学分割十项全能数据集(http://medicaldecathlon.com/)中的脾脏、左心室数据集来对我们的结果进行基准测试。ISIC数据集包含相机获取的皮肤病理图像和相应的皮肤病变区域分割图，共包含2594张图像。我们将所有图像的分辨率调整为256 × 256。脾脏数据集的原始格式为NII，我们将数据转换为PNG格式，并排除数据集中不包含标记的数据，最终得到总共1051张图像，大小为512 × 512。

左心室数据集中有1086张图像，我们将这些图像转换为256 × 256的分辨率。

在多类分割任务中，我们选择组合健康腹部器官分割挑战数据(Combined Healthy Abdominal organs segmentation Challenge Data, CHAOS)作为评估数据集(https://zenodo.org/record/3431873)。我们在MRI类型数据中只使用了20例T1数据，并将所有数据转换为256 × 256的分辨率用于模型学习。

4.2. 实现细节

对于所有的实验，我们采用了数据增强方法，如随机水平翻转、归一化、图像大小的随机缩放和随机裁剪。所有模型均使用Adamw优化器[43]进行训练，ISIC数据集的学习率设置为0.00005，脾脏数据集为0.0005，左心室数据集为0.0001,CHAOS数据集为0.0001，学习率衰减策略基于余弦退火学习率(最大周期t为20)，动量设置为0.9，权重衰减设置为1e-4。所有实验均使用单个Nvidia RTX3090Ti GPU进行。

主要依赖库及其对应版本，albumments = 1.3.0;H5py = 3.8.0;Ml-collections = 0.1.1;Mmcv-full = 1.4.0;Mmsegmentation = 0.29.1;Tensorflow = 2.12.0;Timm = 0.6.11;火炬= 1.8.1+cu111;Torchaudio = 0.8.1;Torchsummary = 1.5.1;火炬视野= 0.9.1+cu111。更多的库版本可以在U-MLP代码库的需求中查看。整个U-MLP库实现的GitHub链接是“https://github.com/xielaobanyy/ U-MLP”

5. 与最先进方法的比较

我们将U-MLP与最近广泛使用的医学图像分割框架的性能进行了比较。特别是，我们比较了卷积基线，如UNet、UNet++、Deeplabv3+[44]和PraNet[45]，我们还比较了最近的Transformer基线，如TransUnet、BA-Transformer[46]、MT-UNet。请注意，我们提出了三种不同大小的U-MLP，分别是U-MLP- s、U-MLP- m和U-MLP- l(三种模型的主要区别在于嵌入维度的设置，相应的模型细节见表1)。我们重点比较了分割性能(Dice和Hausdorff距离95)以及参数数量、计算复杂度(以GFLOPs为单位)和推理时间(以ms为单位)方面的基线。

在一类分割任务中，我们将三个数据集的每个模型的结果列在表2中。与其他分割方法相比，我们的方法具有更好的性能。从数量上看，在Dice指标方面，所提出的U-MLP比其他网络中表现最好的BA-Transformer网络高出3.16%(即(88.27−85.57)/85.57≈3.16%，在表中加粗以便更好地观察)。此外，对于MSD-脾脏和MSD-心脏数据集，U-MLP-L将Dice指标提高了约3.20%(即(97.61-94.58)/94.58≈3.20%)和4.34%(即。

(95.91-91.92)/91.92≈4.34%)。

此外，在Hausdorff距离95指数(95% HD)的评价中，我们的模型在三个数据集上获得的距离值最小，分别为6.2208、0.3494和0.3254，进一步证明了我们的模型U-MLP在边缘优化性能上是优秀的。最后，我们不同大小的u - mlp在Dice和95% HD指标上的表现甚至高于比较网络。这些结果表明，U-MLP是

的确能够获得完整的语义信息，而切分也确实受益于足够的上下文信息，因此切分的性能得到了很大的提高。

在多类别分割任务中，我们还将CHAOS数据集的每个模型的结果制成表3，并对每个类别的Dice指数进行评估和比较。与其他方法相比，我们的方法仍然是多类分割，并表现出优异的分割性能。具体来说，对于肝脏分割，我们比下一个最佳模型高出4.02%(即(87.52-84.14)/84.14≈4.02%，在表中加粗以获得更好的视图);对于左肾、右肾和脾的分割，我们的模型分别达到了80.09%、80.72%、85.91%的最高准确率。

定性地，我们在图5-7中展示了由其他网络同行和我们的U-MLP分割的视觉比较结果。很明显

三个一类数据集属于不同的模态。其中，ISIC 2018数据集中的皮肤病变图像属于24位RGB彩色图像，msd -脾脏和msd -心脏分别属于CT和MRI图像。此外，不同的数据集对应的图像分辨率也不同。

一般情况下，同一模型在学习不同的数据集时，结果总会产生较大的差异，例如MT-UNet在msd -脾脏数据集上表现良好，而在ISIC 2018数据集上分割精度不高。相反，图5-7中的第三列表明，我们的方法比以前的方法具有更强的边缘细化能力。具体而言，我们的模型在对分割区域进行完整预测的基础上，对分割区域边缘的预测优于其他网络，并且预测结果中的掩模边缘更平滑，更接近地面真相。它受益于网络捕获的更完整的上下文语义信息。值得注意的是，我们引入的皮肤病变和脾脏分割任务具有不同的图像纹理和模式，这进一步证实了我们提出的方法的迁移能力。

图8直观地比较了我们的网络和SOTA方法在CHAOS上预测的分割结果。从这些可视化结果中，我们可以发现我们的方法比所有比较的方法更准确地分割肝脏和脾脏区域。此外，对于较小的左肾和右肾的分割，我们的模型的分割结果更接近Ground truth。这是因为我们的方法通过MGSA和VRRE模块的相互促进，获得了更多的空间上下文信息，可以更精确地区分同一图像内的不同类别。

在图9中，我们绘制了Dice vs. GLOPs, Dice vs. GLOPs的对比图。

推理时间，骰子与参数数量。Dice的准确性比较基于MSD-heart数据集。从图中可以清楚地看出，就分割而言，U-MLP是性能最好的方法

的确能够获得完整的语义信息，而切分也确实受益于足够的上下文信息，因此切分的性能得到了很大的提高。

定性地，我们在图5-7中展示了由其他网络同行和我们的U-MLP分割的视觉比较结果。很明显

在图9中，我们绘制了Dice vs. GLOPs, Dice vs. GLOPs的对比图。

推理时间，骰子与参数数量。Dice的准确性比较基于MSD-heart数据集。从图中可以清楚地看出，就分割而言，U-MLP是性能最好的方法

图5所示。可视化的皮肤病变分割面具。每列表示不同模型下的可视化结果(红框为分割区域)。

图6所示。脾脏分割面具的可视化。每列表示不同模型下的可视化结果(红框为分割区域)。

图7所示。左心房分割面具的可视化。每列表示不同模型下的可视化结果(红框为分割区域)。

图8所示。CHAOS分割掩码的可视化。每列表示不同模型下的可视化结果。(黄色代表肝脏，红色代表右肾，绿色代表左肾，紫粉色代表脾)。

表演此外，U-MLP在计算复杂度方面明显优于其他网络，在推理时间方面可与UNet、UNet++和TransUNet相媲美，在参数数量方面仅次于UNet和PraNet，而在基于Transformer的TransUNet和MT-UNet方面则要小得多。此外，为了比较模型之间的差异，我们将GFLOPs、推理时间(ms)和每个模型的参数数量列在表1中。

消融实验。

基准测试和验证的准确性

我们提出的框架U-MLP-S通过MGSA和VREE两个模块的集成，我们对心脏数据集进行了消融实验，结果如图10所示。我们比较了U-MLP(未添加任何子模块)和u - mlpadding(添加MGSA和VRRE)的分割精度，以验证其有效性。烧蚀实验结果如表4所示。

结果表明，加入MGSA和VRRE模块后，U-MLP-S网络的分段性能有了很大的提高

图10所示。VRRE处理前后的视觉对比特征。从左至右为皮肤原图;VRRE处理前后热图对比;VRRE处理前后特征降尺度聚类结果比较;以及原始图像的相应标签。

改进后，Dice达到87.95%，95% HD达到7.2177，反映这两个子模块可以很大程度上提高网络分割性能。为了评估VRRE模块的有效性，基于ISIC 2018数据集，我们分别展示了VRRE处理前后特征图的对比可视化结果，结果表明，VRRE处理后的特征图比较接近地面真实情况。此外，我们使用T-SNE对VRRE处理前后的两幅特征图进行了降尺度处理，可以明显看出，VRRE处理前的特征图分布更加分散，而VRRE处理后的特征图分布在两个大集群中。此外，这些发现与VRRE可以细化不确定像素的分类，提高模型的分割精度的概念是一致的。

6 结论

在这项工作中，我们提出了一种基于多层感知器U-MLP的跨尺度语义信息融合网络，抛弃了传统的CNN结构。我们发现基于MLP结构的视觉模型在达到目前大多数框架的精度的同时，模型参数数量更少，推理速度更快，更适合小型医学图像数据集的特点。具体来说，我们设计了一个多头门注意(MGSA)，其中包括一个类似卷积的重叠滑动窗口，以帮助模型更好地获取局部特征，最后通过融合来自不同尺度的语义信息获得尽可能多的上下文信息。此外，我们结合模糊区域细化机制(VRRE)对推理过程中的不确定像素进行重新分类。

在今后的工作中，有一些潜在的研究方向。

首先，MLP结构有许多隐藏层，每个“神经元”都连接到前一层的所有节点，容易造成大量参数和模型过拟合。其次，我们在提出另外两个版本的U- MLP时也遇到了这个问题，我们发现MLP在小模型尺寸下确实可以取得较强的性能，但是当模型尺寸增大时就会出现严重的过拟合问题。因此，如何优化MLP结构通道变换引起的参数倍增，实现高分辨率医学图像的高效处理也是值得研究的研究。