Encoder Activation Diffusionand Decoder Transformer Fusion Networkfor Medical Image Segmentation

本文提出了一种新型的编码器激活扩散和解码器变压器融合网络(ADTF),通过轻量级卷积调制(LCM)和激活扩散块(EAD)解决医学图像分割中的问题,如模糊边界和小目标分割。实验结果证明了ADTF在多种数据集上的优越性能。
摘要由CSDN通过智能技术生成

用于医学图像分割的编码器激活扩散和解码器变压器融合网络

摘要:

多年来,医学图像分割在协助医疗保健专业人员治疗疾病方面发挥了至关重要的作用。卷积神经网络在这一领域取得了显著的成功。在这些网络中,编码器-解码器结构是医学图像分割的经典有效模型。

然而,仍有一些挑战有待解决,包括边界不清引起的分割问题,不规则形状图像的分割困难,以及小目标病变的准确分割。为了解决这些限制,我们提出了编码器激活扩散和解码器变压器融合网络(ADTF)。具体而言,我们提出了一种由门控注意机制组成的轻量级卷积调制(LCM),利用卷积对空间特征进行编码。LCM取代了编解码器网络中的卷积层。此外,为了增强空间信息的整合,动态提取更有价值的高阶语义信息,我们在编码器(EAD)之后引入激活扩散块(Activation Diffusion Blocks),使网络能够分割出完整的医学分割图像。此外,我们在解码器上利用基于transformer的多尺度特征融合模块(MDFT)来实现多尺度特征的全局交互。为了验证我们的方法,我们在多个医学图像分割数据集上进行了实验。实验结果表明,我们的模型在常用的评估指标上优于其他最先进的(SOTA)方法。

1 介绍

随着时代的发展,医院对医学图像分割有了更加准确、可靠的要求。卷积神经网络逐渐利用了这方面的优势。U-Net[19]由编码器-解码器架构组成,广泛应用于医学图像分割。在此基础上,研究人员提出了一些特征增强方法[10,15,24]来提高分割性能。

医学图像往往表现出广泛的尺度的目标对象,导致潜在的分割错误。为了解决这一挑战,Rahman等[13]在MultiResUNet中引入了带有残差结构的ResPath,以改善编码器和解码器之间的连接问题。此外,Wang等人[20]率先使用变压器实现编码器和解码器层之间的连接。随着对更好的医学图像分割需求的增加,模型架构变得越来越大和复杂。为了解决这个问题,Chollet等[6]提出了Xception模型,该模型引入了深度可分离卷积的概念,显著减少了参数数量和计算复杂度。同样,在GhostNet[11]中,对一个特征图进行线性运算,生成更多相似的特征图,有效地减少了参数。

过多的卷积运算可能导致空间信息的丢失。Azad等人[5]提出了CE-Net,在编码器结构中加入了数模转换模块和最小均方误差模块来缓解这一问题。GU等[10]引入了CA-Net,该网络利用了特征图的空间位置、通道号和尺度,以及一个综合关注模块。此外,Dai等[7]在MsRED中提出了MsREFM和MsR-DFM进行多尺度特征融合,使网络能够自适应地学习上下文信息。除了这些进步之外,研究人员还提出了各种改进的医学图像分割算法。虽然这些方法[17,22]已经取得了一定的性能改进,但它们仍然有一定的局限性。例如,大多数编码和解码卷积块都受到大量参数和计算复杂性的影响。编码器层提取的信息可能不够充分,这给边界模糊的图像分割带来了挑战。当在解码器层恢复图像空间细节和语义信息时,捕获多尺度特征的变化可能是困难的。此外,传统的融合方法,如特征图拼接[7],往往存在信息冗余或缺失的问题。

为了解决上述问题,我们提出了编码器激活扩散和解码器变压器融合网络,简称ADTF。我们提出了一种LCM,它无缝地取代了编码器-解码器中的卷积层。

与传统的卷积层相比,我们的LCM显著减少了参数的数量,同时略微提高了分割性能。

此外,EAD保留了更多有意义的信息,从而改善了模糊区域的分割。最后,我们介绍了MDFT可以利用自注意机制与不同尺度的特征进行全局交互。这能够更好地学习不同通道特征之间的相关性,促进捕获复杂医学图像中的远距离依赖关系和全局上下文信息。总的来说,本文的主要贡献可以概括为以下几点:

1. 为了增强模型的特征学习能力,并在训练网络时减少模型参数的数量,提出了一种轻量级卷积调制方法LCM来替换编码器和解码器层中的所有卷积块。

2. 为了使编码器能够提取更多有用的特征信息,解决图像模糊区域的激活问题,提出在编码器中引入图扩散函数

3. 为了更有效地融合不同尺度的信道特征,可以获得更丰富的全局上下文信息和远距离依赖关系。我们提出了一种更好的连接不同解码器的方法,利用Transformer进行多尺度解码信道信息融合。

2 方法

模型总体框架图如图1所示。为了解决医学图像分割中仍然存在的问题,我们提出了三种解决方案。首先,用我们的轻量级卷积调制替换编码和解码卷积层,在MsRED-Net[7]模型中,我们替换了编码器-解码器卷积层中的M2F2,以生成更丰富的特征表示。其次,在编码层末端引入激活扩散块,主要利用空间相关性解决医学图像分割中的部分激活问题;在实践中,

我们引入可学习的参数来调整扩散范围并动态过滤噪声,达到灵活的控制和更好的适应性,它可以在一定程度上将语义感知区域扩散到边界区域,使生成的图能够获得更清晰的边界,可以有效地解决分割目标较小和边界特征模糊的问题。最后,利用Transformer进行多尺度解码信道信息融合,利用自关注机制与特征进行全局交互,通过学习特征之间的相关性,更好地融合不同尺度的特征,解决了普通融合无法获得远距离依赖关系和全局上下文信息的问题。

此外,对于其中的CSAM[18],我们利用它来连接解码器和编码器,有效地利用信道和空间注意模块进行特征表示。

图1所示。提出了模型的总体框架,新模型设计的关键部分包括:1)轻量级卷积调制(LCM),它涵盖了许多编码器和解码器层。2)编码器激活扩散(EAD),位于E5和CSAM的中间。3) Multi-scale Decoding Fusion With Transformer(MDFT),用于连接不同尺度的解码器特征。

2.1 轻量级卷积调制

在我们设计的卷积调制层中,我们尝试学习和简化注意力机制[12,25],使其可以轻松地取代其他普通的卷积。因此,我们尝试使用深度门控机制来优化模型。具体来说,对输入特征X进行三种不同的卷积操作。为了优化常规卷积,首先使用Depthwise+Sigmoid和Depthwise+Gelu充分提取X中单个通道的特征信息,并对两者进行点积,然后再使用卷积核大小1×1线性提取X中不同的通道特征,最后将两种结果融合并相加。深度卷积与1 × 1卷积相结合可以实现多尺度特征融合。深度卷积可以捕获输入特征的空间信息,1 × 1卷积可以实现信道间的信息融合。

将两者的结果进行叠加,可以在保留空间信息的同时融合不同通道的特征,提高特征表达能力。此外,我们使用了GroupNorm,它将通道方向划分为组,然后在每个组内进行规范化。具体来说,给定一个输入特征X∈R(H×W ×C),我们使用两种不同的基于深度的门机制进行卷积,然后使用Hadamard prod计算输出,如下所示:

在上式中,⊙表示Hadamard积,DSConvk×k和DGConvk×k分别表示deepwise +Sigmoid和deepwise +Gelu,核大小为k×k, W为线性层的权矩阵,其卷积核大小为1 × 1。上述卷积调制操作可以使每个空间位置(h, w)与以(h, w)为中心的k × k正方形区域内的多个像素相关联,并通过线性层实现通道间的信息交换。

2.2 编码器激活扩散

使编码器获得的有用信息更加丰富,动态扩展高阶语义信息,从而获得更完整的分割区域和更清晰的边界。如图2A所示,受图扩散算法[2,14]的启发,我们提出了激活扩散算法,使编码器能够动态地将语义感知区域扩散到边界区域。

图2所示。这个框图由两部分组成。A是编码器激活扩散(EAD)的结构。它由嵌入相似矩阵和动态扩散块组成。B是Multi-scale Decoding Fusion With Transformer (MDFT)。

语义相似度估计。对于编码器的输出特征,我们需要构造一对patch来描述其语义和空间关系。为了实现这一点,我们首先将空间信息表示为高维空间中的向量,每个向量都有潜在的语义信息。为此,我们定义i节点∈RQ中的vl,然后我们推断出语义相似度ESM li,j,其中ESM li,j定义为vi与vj之间的余弦相似度:

其中ESM li,j度量向量vi和vj之间的相似性。值越高表示相似度越高。

动态活化扩散。受图神经网络的启发,拉普拉斯矩阵的逆可以用来增强全局扩散[3,16]。

为了表示空间关系,我们用vi和vj构造拉普拉斯矩阵,用拉普拉斯矩阵的逆来描述vi和vj之间的平衡状态,其中Ali,j∈RN×N,表示vi和vj是否连通。Dli,i表示与vi和Dlj相关的所有度之和,j表示与vj和Dl∈RN×N相关的所有度之和。然后我们构造Platas矩阵为:Ll = Dl−Al。为了增强语义信息的扩散[9],我们将ESM li,j和Ll与上下文信息结合起来。我们引入一个可学习的参数来动态调整语义相关性和空间上下文,使激活扩散更加灵活,从而实现有效的信息传播。因此,我们定义拉普拉斯矩阵为:

漫射矩阵近似。

我们不可能直接求出拉普拉斯矩阵的逆,因为我们不能保证矩阵一定有正定形状,所以我们需要用牛顿-舒尔茨迭代来近似拉普拉斯矩阵的逆变换,

这里,逆变量是通过一个常数∂除以Ll得到的,其中下标i表示迭代次数,迭代次数越多,得到的值越精确,i是单位矩阵。

2.3 多尺度译码融合变压器

为了解决不同解码器之间的语义差距,我们提出了MDFT(见图B)来充分利用解码器的多尺度特征,并使用Transformer进行融合。利用自注意机制与特征映射进行全局交互,通过学习特征之间的相关性,可以更好地融合不同尺度的特征。我们的模型基于Transformer[20],具体操作如下:首先,对于D1、D2、D3、D4四个解码器输出,由于不同层次的特征具有不同的大小和通道,我们记为Di∈R(icx hw i), (i = 1,2,3,4),将四个Di输入通过卷积编码(通道嵌入)映射成二维序列,仍然保持原有的通道大小,具体表示为Ti∈R(icx hw i), (i = 1,2,3,4),具体操作如下:

这里的每个线性都是用不同的权重计算的。它们基于用Ti和F计算的Query、key和value,其中Qi∈R(iC×d), (i = 1,2,3,4), F∈R(C∑×d), K∈R(C∑×d), V∈R(C∑×d)。具体来说,多头交叉关注模块的计算方法和最终结果为:

其中,φ(·)and σ(·)分别表示归一化函数和softmax函数。该公式省略了一些激活函数和正则化

在操作中是必不可少的。我们使用更有效的特征融合和多尺度通道交叉关注来融合低级特征和高级特征。特征之间的语义和分辨率差距捕获更复杂的通道依赖关系,使图像分割更准确。

3 实验

3.1 数据集

我们将在三个数据集上进行实验,它们是PH2、ISIC2017和ISIC2018数据集。PH2是一个小数据集,总共有200张图像,其中80张用于训练,100张用于测试,20张用于验证。ISIC2017和ISIC2018数据集分别有2150张和2594张图像及其相应的标签。其中,ISIC2018已成为医学图像分割中算法评估的主要基准,ISIC2017和ISIC2018数据集随机分为训练集(70%)、验证集(10%)和测试集(20%)。所有数据集被重新裁剪为224 × 320像素。

3.2 实现细节

我们所有的实验都在一个单一的GeForce RTX3090 GPU上运行,并使用pytorch实现。我们使用Adam作为优化器,初始学习率为0.001,权值衰减为0.00005,使用cosineannealingwarmrestart学习率策略对所有网络运行250 epoch。由于PH2数据集太小,在模型训练中容易造成过拟合,因此我们通过图像水平翻转、裁剪和旋转等方法对数据进行扩充。为了保证实验数据的准确性和可靠性,我们使用了5次交叉验证来评估模型的可行性。医学图像分割评价标准采用Jaccard Index (JI)、Accurary (ACC)、Precision(精度)、Recall(召回)和Dice(骰子)对模型进行评价,可准确衡量模型在医学图像分割中的性能。

3.3 评价结果

为了验证我们提出的模型的有效性,我们将我们的模型与最先进的方法进行比较,我们将依次对ISIC2017, ISIC2018和PH2数据集进行公平比较。由于ISIC2018已经成为医学图像分割中算法评估的主要基准,因此我们也将使用它来与其他模型进行视觉比较。

ISIC2017与PH2技术现状比较。两次实验结果汇总如表1所示。ISIC2017数据集中还有更复杂的病变。显然,ADTF在复杂分割数据集和小数据集上的表现优于其他模型。这主要是由于EAD模块动态激活了ISIC2017大模糊病变区域。MDFT可以提高模型的感知能力,使其在处理多尺度任务时更加准确。

表1。不同网络在ISIC2017和PH2上的分割性能,最佳结果以粗体显示。

与ISIC2018最新技术比较。表2显示了ADTF与ISIC2018数据集中其他11种高级模型的比较。、

表2。不同网络在ISIC2018上的分割性能(均值±标准差),最佳结果以粗体显示。

其中Dice和JI是评价分割结果熟悉度的指标,表示预测的分割结果与真实的分割结果重叠的程度,Recall是欠分割的程度。我们的ADTF的JI、ACC、Recall和Dice指标比MsRED分别提高了0.63%、0.32%、0.63%和0.55%,在12个网络中表现最好。

我们的ADTF显示了良好的分割能力。这主要是因为EAD保留了更多有用的信息,而MDFT利用自注意机制与特征进行全局交互,学习它们之间的相关性,从而更好地融合不同尺度的特征。

图3直观地比较了这些模型的分割结果。这些样本包含各种挑战,包括模糊的边界特征,小病变对象和不规则形状。大多数网络对于小的对象总是过度分割(红色区域),对于大的对象总是分割不足(蓝色区域)

3.4 消融研究

在每个模块上进行烧蚀实验:为了验证我们提出的每个模块的有效性,我们对提出的三个模块进行了逐步烧蚀实验(见表3)。为此,我们选择ISIC2018数据集进行比较。与Baseline相比,我们对不同模型的评价指标进行了改进,其中,仅使用LCM的模型的Paras (M)和Floats (G)的数量最少。Recall是分割不足的程度,该值越大,表示分割越完整。结合EAD模块的模型具有较高的召回率,这与其在病灶模糊区域的动态激活扩散有关,可以获得更完整的分割图像。

表3。评估添加不同模块后的分割性能。基线是MsRED,最后一行是ADTF。最好的结果以粗体显示。

表4。M2F2和CS2-Net中LCM和卷积层的比较。

LCM与其他卷积层参数的比较:表4定性地给出了LCM与M2F2和CS2-Net卷积层参数的比较。所使用的特征大小是相同的。显然,CS2-Net卷积层的参数要比M2F2和LCM大得多。与M2F2和CS2-Net卷积层相比,LCM在所有参数比较中分别减少了80%和26%。

包括EAD模块在内的所有模型的可视化分析:为了验证我们的EAD模块的有效性,我们对所有相关模型进行了可视化分析,如图4所示,蓝色区域表示未分割,从图中可以清楚地看出MsRED很难完全分割病变区域。然而,结合EAD的模型可以动态激活和扩散编码区域。可以提取更多有用的信息。可以看出,ADTF的蓝色面积最小,分割最准确、最完整。

图4所示。所有包含EAD的模型都与ISIC2018上的基线(MsRED)进行了直观比较。白色、蓝色和红色分别代表正确分割、分割不足和分割过度。(网上彩色图)

4 结论

为了解决医学图像分割中存在的问题,本文提出了一种新的ADTF模型。具体而言,EAD动态激活高阶语义信息,并更加关注图像模糊区域。引入Transformer架构对解码器进行多尺度信道融合,提高模型的感知能力,更好地获取特征之间的相关性。此外,所提出的LCM采用较少的参数,可以用来替代其他卷积层,提高模型的训练能力。此外,我们在多个数据集上验证了该模型的有效性,实验结果表明与其他SOTA方法相比,该模型具有优先性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值