DTAN: Diffusion-based Text Attention Network for medical imagesegmentation

医学分割哇哇哇哇哇哇哇哇哇

已于 2024-05-24 10:47:36 修改

阅读量687

点赞数 11

文章标签：人工智能神经网络 transformer 计算机视觉深度学习

于 2024-02-17 11:26:49 首次发布

本文链接：https://blog.csdn.net/weixin_45622568/article/details/136133620

版权

DTAN:基于扩散的医学图像分割文本关注网络

摘要

在当今时代，扩散模型已经成为医学图像分割领域的一股开创性力量。在此背景下，我们引入了弥散文本注意网络(Diffusion text - attention Network, DTAN)，这是一个开创性的分割框架，它将文本注意原理与扩散模型相结合，以提高医学图像分割的精度和完整性。我们提出的DTAN架构旨在通过利用文本注意机制将分割过程引导到感兴趣的领域。该机制善于识别和归零有意义的区域，从而提高分割的准确性和鲁棒性。同时，融合扩散模型可以减少医学图像中噪声和不相关背景数据的影响，从而提高分割结果的质量。

扩散模型有助于过滤掉外来因素，使网络能够更有效地捕捉目标区域的细微差别和特征，从而提高分割精度。我们对DTAN进行了三个数据集的严格评估:Kvasir-Sessile, Kvasir-SEG和GlaS。由于其与临床应用的相关性，我们的重点特别吸引到Kvasir-Sessile数据集。当与其他最先进的方法进行基准测试时，我们的方法在Kvasir-Sessile数据集上显示出显着的改进，平均交集超过联合(mIoU)增加2.77%，平均骰子相似系数(mDSC)增加3.06%。这些结果有力地证明了DTAN的通用性和鲁棒性，以及它在医学图像分割任务中的明显优势。

1 介绍

医学图像分割是医学影像领域的基石，为临床医生准确定位、辅助诊断、制定治疗方案提供了不可或缺的支持。在最近的医学图像分析领域，编码器-解码器网络得到了广泛的探索，UNet架构[1]就是一个典型的例子。该架构采用编码器通过卷积和下采样提取深度特征，而解码器通过上采样将这些特征恢复到原始输入分辨率。跳跃连接的集成减轻了下采样导致的空间信息丢失，提高了分割的保真度。UNet框架发挥了重要作用，促进了许多基于UNet架构的开发[2-7]。

在医学图像分割领域，卷积神经网络(cnn)得到了广泛的应用。然而，医学图像中噪声的存在会影响cnn的性能。

为了解决这个问题，引入了扩散模型[8-10]。这些生成模型，使用变分推理和马尔可夫进行训练

链[11]，旨在通过有效处理医学图像中的噪声和不确定性来提高分割的准确性和鲁棒性。他们通过学习反向扩散过程，在去噪高斯模糊图像方面取得了特别成功[12]。

扩散模型在各种应用中取得了显著的成功，包括图像生成[13,14]、绘画[15,16]和语义分割[17,18]。它们增强图像平滑性和降低噪声的能力使得扩散模型与cnn的融合成为一种流行的去噪方法，在医学图像分割方面取得了重大成就[19-21]。这种组合使得cnn在分割过程中能够更有效地去除噪声，从而提高分割结果的质量和精度。

受cnn和扩散概率模型(Diffusion Probabilistic Models, DPM)协同作用的启发，我们提出了一种用于医学图像分割的前沿网络模型DTAN。该模型首次将字节对编码引导的注意力与扩散模型相结合。在医学图像分割中，病变或器官往往被遮挡

背景干扰时，DTAN采用动态条件编码来细化分割结果。在迭代采样过程中，我们的模型在每一步捕获图像的先验条件，以学习分割后的图像信息。为了实现自适应区域关注，将当前步骤的分割图像集成到每一步的图像先验编码中。此外，在训练过程中，基于文本的注意机制与辅助分类任务一起使用，以合并与数字和大小相关的特征，允许网络通过加权文本嵌入学习额外的特征表示。通过在Kvasir-SEG[22]、KvasirSessile[23]和GLAS[24]数据集上的大量实验验证了我们提出的方法的有效性，证明了它作为医学图像分割的一种变革性方法的显著优势和潜力。

为了简洁地概括我们研究的贡献，我们描述了以下关键点:

1. 我们引入了一种新的基于文本的注意力机制与扩散模型的集成，为医学图像分割领域量身定制。这种创新的方法将网络的焦点指向关键区域，利用扩散模型固有的信息传播能力来实现精确的分割结果。

2. 特征增强模块(FEM)的实现允许多尺度信息的有效资本化，从而提高分割性能。有限元法擅长提取和融合不同尺度图像的特征，丰富了网络识别不同尺寸结构的能力，从而提高了分割精度。

3. 我们建议在网络中加入一个辅助分类任务，以提高目标分割区域的准确性。通过为基于文本的嵌入分配权重，该网络被赋予了吸收附加特征表示的能力。这种方法使网络能够更准确地适应待分割区域的不同数量和尺寸，从而提高整体分割精度。

2. 相关工作

在医学图像分割领域，经典的U-Net模型[1]已经成为一个基础框架，用于预测输入图像的分割掩码。U-Net巧妙地解决了由于下采样而导致的低级信息丢失问题，它结合了可以恢复细粒度细节的跳过连接。

在此基础上，U-Net++[2]和ResUNet++[6]因其在医学图像分割方面的增强性能而得到广泛认可。当代的研究工作主要集中在通过增加或改进各种模块来增强网络能力[25-34]。例如，PraNet[35]引入了一种并行的反向注意机制，该机制利用肿瘤区域的面积和边界信息进行精细分割，采用并行部分解码器整合高级特征并生成全局知情特征来描绘感兴趣的区域。

HRENet[36]通过集成上下文增强技术来捕获全面的语义信息并将其与局部特征协同，提高了分割的准确性和一致性。它还具有自适应特征聚合模块，可以自动融合不同尺度的特征，使模型能够更好地适应目标的各种大小和形状。在训练过程中，HRENet利用边缘和结构一致性损失函数来强调边缘的精度和整体结构的完整性。

dcau - net[32]代表了一个重大的飞跃，引入了有选择地保留主要特征的策略，从而利用低级和高级语义信息进行更准确的分割。它还结合了渠道智能注意力块，以更有效地辨别和处理不同渠道的信息。

XBound-Former[37]通过集成多层次边界信息和全局上下文建模，解决了皮肤病变分割中尺寸、形状变化和模糊边界的挑战。它采用专门的学习器对图像特征进行微调，并结合边界关键点映射生成算法来增强边界的描绘。

文献[38]提出在网络中集成文本注意机制，并在编码层对属性进行加权，可以显著提高网络对不同大小和数量的肿瘤的分割精度。在多个尺度上聚合来自单个解码块的特征可以提高分割精度。

polyseg方法[39]利用自适应尺度上下文模块(ASCM)和语义全局上下文模块(SCCM)来促进语义分割。ASCM动态调整接受野以适应不同大小的息肉，而SCCM增强了对全局语义上下文的理解，并将其与底层特征融合以提高分割的鲁棒性。

扩散模型在最近的各种任务中显示出其潜力[18,40 - 42]，特别是在医学图像分割中[19,21,43 - 45]。去噪扩散隐式模型(diffusion implicit model, DDIM)[9]通过引入不同的采样方案生成图像。与传统的随机采样相比，它采用了一种确定性采样方法，跳过多个步骤来获取图像。这种确定性采样方案保证了从相同的噪声图像中采样的输出图像是确定性的，不受随机变化的影响。此外，DDIM在图像之间实现了有意义的插值，实现了图像之间的平滑过渡。为了进一步提高DDIM的性能，论文[46]最近的工作做了一些改进。他们调整了损失目标，改进了模型架构，并在采样过程中引入了分类器引导，以提高生成图像的质量。这些改进使DDIM能够生成高质量的图像并取得令人满意的结果。此外，Wolleb等[17]。提出了一种新的基于扩散模型的二维医学图像语义分割方法，证明了扩散模型在医学图像分割领域的适用性。MedSegDiff[21]，该研究引入了一种基于Transformer的Ushaped框架，该框架带有一种新的频谱空间Transformer，以促进医学图像分割。同样，diffi - unet[19]将扩散模型集成到u形网络中，在推理过程中鲁棒地提取语义信息，增强预测结果。

3. 方法

图1展示了我们提出的扩散文本注意网络(DTAN)的综合架构。传统的医学分割技术通常直接从输入的图像数据中推断出最终的分割标签，我们的方法将扩散模型集成到分割框架中。该网络不仅对原始图像进行处理，而且对分割后的掩码图像进行带噪处理。这种双输入策略使扩散模型能够有效地去除噪声，从而产生精细而清晰的分割结果。此外，我们的架构利用了文本注意机制，这对于以最佳方式分割图像中的目标对象至关重要。这种机制是专门为减轻对象大小和数量变化对分割结果的影响而设计的。通过关注相关的文本描述符，网络可以自适应地调整对目标对象相关特征的关注，确保分割的准确性和对目标属性变化的鲁棒性。

图1所示。图中展示了DTAN网络的架构，该网络被战略性地划分为两个主要部分，以优化医学图像分割。上面的部分，称为扩散UNet，用于衰减医学图像中的噪声。它采用了一个复杂的去噪模型来处理输入图像，目的是大幅提高它们的质量。这种增强对于随后的分割任务至关重要，因为它确保了图像中更精细的细节和结构得到保留和强调。网络的下部是特征提取器，它是一个精心设计的组件，用于从原始图像中识别和捕获基本特征。该设计的一个值得注意的方面是特征提取器和扩散UNet之间的共享编码器。这种共享的体系结构促进了功能的和谐集成，允许更健壮和一致的功能分析。文本注意机制是网络运行的核心。这种机制使网络能够集中在图像中最关键的区域，从而实现更准确和更集中的分割。变量f£表示通过特征增强模块(FEM)处理的特征大小数组。有限元法擅长细化不同尺度的特征，这对于适应医学图像中存在的不同尺寸和复杂性特征是必不可少的。该模块增强和集成多尺度特征的能力对网络的整体性能至关重要，确保分割不仅精确，而且全面捕获不同尺度上的每个相关细节。

3.1 扩散UNet

我们的研究推进了Ho等人[8]所描述的扩散模型，并对其进行了增强和修改，以提高性能。扩散模型作为一个马尔可夫过程[47]，用于变分推理，系统地处理T时间步长的图像，以学习训练数据分布p(x0)。

该模型的前向扩散阶段逐渐向图像x0 ~p(x0)引入高斯噪声，逐步将图像转换为各向同性高斯分布。这模拟了医学图像中的噪声存在和传播，如Song等人[10]所描述的。前向噪声过程的数学表述如下:

其中I为单位矩阵，(x0，x1，…，xt)为马尔可夫链中的时间步长t，(β0，β1，…，βt)为扩散系数。

经过t步骤，过程表示为式(2):

通过重参数化技术，我们可以用公式 (3) 中的 𝑥0 来表示 𝑥𝑡：

相反，反向扩散阶段使用经过训练的神经网络来逆转噪声过程并恢复原始数据。

网络对扭曲的分割标签进行恢复，得到原始的分割结果，可以表示为Eq. (4):

这里，𝜃 表示反向扩散参数。过程开始时，𝑥𝑇 遵循高斯分布  ( 𝑥𝑇 ; 0, 𝐼𝑛×𝑛 ) ，其中𝐼𝑛×𝑛 是 n 维空间中的身份矩阵。反向过程将潜在变量分布𝑑𝜃 ( 𝑥𝑇 ) 转换回数据分布𝑑𝜃 ( 𝑥0 ) ，一步步对称地反转噪声图像，从而得到清晰的分割结果。在正向扩散阶段，输入初始条件和边界特征来计算扩散过程，在指定的时间和空间范围内生成精确的扩散结果。这些结果为医学图像分割网络中的精确分割奠定了基础。反向还原的逆过程可以去除噪声并还原原始图像，从而得到更精确的分割结果，满足医学影像分割的要求。如图 1 所示，我们的 Diffusion UNet 由编码器和解码器组成，在跳接过程中利用特征增强模块提取更多的鉴别特征。最初，图像𝐼∈ R𝐶×𝐻× 和经过 𝑡 步后带有高斯噪声的标签被输入到 Diffusion UNet 的编码器中。这将产生多尺度特征表示̂ 𝑓 ∈ R𝑖𝑓× 𝐶 𝑖 × 𝐻 𝑖 × 𝑖 ，其中 𝑓 代表特征大小，𝑖 代表尺度。使用与编码器相同的特征提取器从原始图像中提取多尺度特征𝐼̃ 𝑓。然后将每个尺度的相应特征按元素顺序相加，得到融合特征。这些特征与文本属性提取模块中的文本注意事项 𝑇 一起输入解码器，以生成预测结果 ̂𝑥0 ∈ R𝐶×𝐻× 所得公式 (5)：

3.2. 文本属性提取模块

在医学图像分割领域，目标区域分割的精度往往受到周围组织和结构复杂性的影响。我们的研究引入了一种新颖的方法，该方法结合了文本属性提取模块，该模块与文本注意机制相结合，显著增强了网络专注于目标结构的能力。

该过程从字节对编码技术开始，该技术编码一组文本属性T=one，many,small,medium,large，表示为T encoder。这种编码为网络提供了关于要分割的区域的数量和大小的描述性信息，使其能够根据目标区域的不同尺寸和数量进行调整。

为了有效地利用这些文本属性，我们将文本关注机制集成到网络中。这种机制包括计算图像中每个像素的注意力权重。首先通过线性变换将网络特征X映射到注意查询向量Q、关键向量K和值向量V上，如式(6)所示:

然后，如公式 (7) 所示，通过在查询向量𝑄 和关键向量 𝐴 之间应用点积注意力机制，可以得到注意力分数𝐴：

根据公式 (8)，使用 softmax 函数将这些分数归一化为注意力权重𝛼：

然后将注意力权重𝛼 应用于值向量𝑉，从而得到加权特征表示𝑌，如公式 (9) 所述：

如图 1 所示，我们的模型包含三个文本注意模块：𝑡𝑖,where 𝑖 = 1, 2, 3。这些模块通过软通道注意机制增强解码器的特征表示。它们根据特征的重要性动态调整特征的权重，放大重要的特征，同时减弱不那么相关的特征。嵌入融合𝐸 (⋅) 的输出与文本嵌入{ 𝛼𝑜𝑛𝑒, 𝛼𝑚𝑎𝑛𝑦, 𝛼𝑠𝑚𝑎𝑙、𝛼𝑚𝑒𝑑𝑖𝑢𝑚，𝛼𝑙𝑎𝑟𝑔𝑒 } 通过元素点乘计算每个标签与文本属性的相关性。这种计算方法为每个标签分配了特定的权重，使网络能够从本质上了解每个标签的重要性，并将文本信息更有效地整合到标签生成过程中。通过整合这些文本关注模块，网络将文本信息引入到分割过程中，并根据每个标签与特征的相关性为其分配适当的权重。这种方法增强了网络对文本-标签关系的理解，并允许在训练过程中进行自适应权重调整，从而提高了分割结果的准确性和鲁棒性。再次重申，利用字节对编码对文本属性集 𝑇 = {𝑜𝑛𝑒，𝑎𝑛𝑚𝑦，𝑠𝑎𝑚𝑙，𝑒𝑑𝑖𝑢𝑚, 𝑙𝑎𝑟𝑔𝑒}进行编码，由𝑇𝑒𝑛𝑐𝑜𝑑𝑒𝑟表示。长度为 |𝑘| 的每个属性 𝑗 表示为 { 𝑡𝑘 𝑗 } 。.对于概率分布和文本嵌入之间的加权关联，我们采用如下元素点乘运算，如公式 (10) 所述：

图2直观地展示了我们方法的有效性，其中的对比图展示了通过我们的方法实现的增强分割结果。

图2所示。该图像提供了一个比较可视化的图像，包括输入图像，它们对应的地面真相，通过我们的文本注意模块得出的注意图，以及我们的新方法产生的分割结果。注意图呈现为热图，以突出感兴趣的焦点区域。按顺序，每个面板显示一个医学图像，随后是Ground Truth, Attention Map和从我们的方法导出的分割输出。这些地图生动地展示了文本注意机制在突出关键区域方面的功效，这与我们的分割结果精度的提高密不可分。

3.3. 特性增强模块

在医学图像分割领域，特征表示的准确性直接影响到网络的分割和识别效果。为此，我们引入FEM，旨在通过吸收补充信息来增强提取的特征，从而增强网络的判别能力。FEM在不增加参数数量的情况下，采用一系列扩展卷积来扩展接受野，如图3所示。我们实例化了四个平行的膨胀卷积，膨胀率r= 1,6,12,18，促进了多尺度上下文信息的捕获。不同的膨胀率使模块能够吸收局部细微差别以及扩展的上下文细节，从而增强不同尺度上的特征表示。

在扩张卷积之后，由Woo等人[48]提出的通道注意机制生成通道注意图(channel attention Map, CAM)。该CAM基于通道间的关系，使网络能够识别和优先考虑显著的特征通道，从而在医学图像中聚焦相关结构，同时减轻无关的背景噪声。

连接的特征集，后扩展卷积处理，通过3 × 3卷积和批处理归一化层进一步细化。通过1 × 1卷积处理与原始输入特征的加性融合来补充这一点，确保原始特征完整性与增强特征集的保留和整合。

该模块的最高潮是空间注意机制(SAM)的集成，该机制也由Woo等人[48]引入，可自适应地重新校准空间权重分布。这种机制在突出重要的空间区域和减少非必要背景元素的影响方面至关重要。通过这个系列进一步改进了特征表示，提高了网络在医学图像分割任务中的性能和准确性。

图3所示。特征增强模块(FEM)具有精确的结构设计特点。在这个模块中，参数“r”的作用是定义扩展卷积的扩展速率。CAM模块，被称为频道注意模块，在其功能中是关键的，因为它专门用于捕获复杂的频道间依赖关系。相比之下，SAM模块代表空间注意机制，其具体目标是收集特征图中固有的空间信息。这种三方结构允许FEM提供整合通道相关属性和空间属性的增强特征，使其在优化图像分割和特征提取方面发挥重要作用。

3.4. 多尺度特征聚合

多尺度特征聚合(MSFA)模块被巧妙地设计为合并光谱尺度上的特征，从而捕获医学图像分割所必需的复杂细节和上下文线索。该模块在目标结构具有复杂的尺寸和空间关系，并且经常被周围的背景噪声所掩盖的情况下特别有利。

通过整合多尺度信息，该网络能够识别细粒度的细节和总体上下文元素，最终达到卓越的分割精度。

我们的MSFA模块的核心是一个融合机制，它将来自不同尺度的特征合并到一个统一的、信息丰富的表示中。然后将这些聚合的特征通过网络引导，最终产生分割输出。这个过程的主干是卷积神经网络架构，它作为从输入图像中提取特征的主力。

一个公认的事实是，由更高层次的网络提取的特征具有广阔的接受域和强大的语义可解释性，尽管以降低空间分辨率为代价，这反过来又减少了它们的几何细节。相比之下，来自网络较低层次的特征，虽然由于它们接近输入层而在语义深度上受到限制，但保留了捕获图像基本几何细微差别的高分辨率。

我们的MSFA模块将高级特征的语义丰富性与低级特征的几何精度相协调，从而为细致的目标分割奠定了基础。这是通过一系列系统转换实现的，如图4所示，其中多个尺度的特征被上采样到统一的空间维度。然后通过一系列操作合成这些特征，包括1 × 1卷积、批处理归一化和ReLU激活。

图4所示。多尺度融合聚合(MSFA)模块经过精心设计，以优化多尺度特征的集成，从而显着丰富网络识别医学图像中详细和复杂模式的能力。该模块在架构上由三个不同的解码器块组成，每个解码器块都经过精心校准，以吸收不同尺度的特征。这个过程从特征的上采样开始，以跨尺度对齐空间维度。接下来是一系列的卷积操作，细致地细化特征，增强它们的深度和表征质量。在训练阶段，批归一化的应用有助于通过归一化特征分布来维持网络的稳定性。此外，ReLU激活函数的集成对于使网络能够模拟数据集中的非线性复杂性至关重要。在这些增强步骤之后，特征经历了一个串联过程，该过程协同合并了多尺度信息。然后，这个连接的特征集通过残差连接的实现无缝地集成到网络的学习范式中。这种连接充当信息流的管道，确保原始输入的丰富性在整个网络中得到保存和传播。

为了进一步完善特征集成并促进对复杂非线性关系的学习，我们合并了额外的操作，如残差连接和后续卷积、批处理归一化和ReLU激活，统称为mf。

这个过程的高潮是产生一个为分割任务量身定制的输出，如以下等式Eq.(11)所封装:

MSFA模块构成了我们网络架构的核心元素，精心设计以协同语义线索和空间几何细节。这种整合有助于增强网络在医学图像分割任务中的熟练程度。通过吸收从较深的网络层收集到的高级上下文见解，以及初始层捕获的复杂空间描绘，MSFF模块赋予网络强大的能力，以更高的精度识别和描绘复杂的解剖结构。这种方法的有效性反映在我们的分割结果中观察到的改进的准确性和性能指标上，强调了该模块在推进医学图像分析中最先进的意义。

3.5. 损失函数

在本研究中，我们引入了从传统的连续扩散模型到为医学图像分割量身定制的离散数据生成框架的范式转变。这种新颖的方法是专门设计的，以促进连续成像数据转化为离散的，临床相关的分割图。我们方法的核心是对初始干净图像变量x0的预测，而不是噪声项∊。DTAN的训练由一个复合损失函数Ltotal驱动，该函数协同集成了骰子损失、二进制交叉熵(BCE)损失和均方误差(MSE)损失。这种多方面的损失函数经过精心校准，以优化网络在医学图像分割中固有的各种挑战中的性能，如下式Eq.(12)所示。

4. 实验

4.1. 数据集的概述

为了评估DTAN在医学图像分割领域的性能，我们使用了两个公开可用的基准数据集:Kvasir-SEG [22]， Kvasir-Sessile[23]和GlaS[24]挑战数据集用于结肠组织学图像的腺体分割。

Kvasir-SEG数据集由1000个息肉图像及其相应的地面真值分割蒙版组成。这些图像由胃肠病学专家手工注释和验证。图像的像素尺寸范围为332 × 487 ~ 1920 × 1072。

在本研究中，我们遵循官方建议，分别使用880/120分割进行训练和测试。

Kvasir-Sessile是Kvasir-SEG的一个子集，包含196个息肉图像，具有无柄形态和具有挑战性的分割特征。该数据集的特点是不同类型和大小的结肠息肉的多样性和变异，显示了结肠息肉的异质性。

GlaS数据集由165张图像组成，这些图像均为H&E染色的T3或T4期结直肠癌组织切片。每个切片来自不同的患者，这些切片来自不同的实验室环境，导致染色分布和组织结构方面的患者间差异很大。GlaS数据集的使用对于医学图像分割研究和结直肠癌相关研究具有重要意义。为研究人员改进医学图像分割算法提供了一个标准化的评价平台，为提高结直肠癌的诊断和治疗提供了有价值的信息。

4.2. 实现细节

利用PyTorch和MONAI框架的强大功能对DTAN架构进行了实例化和训练。并在一台配备NVIDIA Titan RTX GPU的机器上进行计算，该GPU具有24gb内存。在整个训练方案中，我们采用了基本的数据增强技术，例如随机旋转和翻转，以增强模型对输入数据变化的鲁棒性。使用AdamW优化器导航优化景观，权重衰减参数设置为1e−4。损失函数是一个混合结构，包括骰子损失，二进制交叉熵损失和均方误差损失，精心平衡以驱动模型达到最佳分割性能。

对于Kvasir-SEG和Kvasir-Sessile数据集，我们将输入图像大小设置为256 × 256，而对于GlaS数据集，我们将输入图像大小设置为128 × 128。与其他论文相比，我们采用了标准的医学图像分割指标，包括平均交集(mIoU)、平均Sørensen-Dice系数(mDSC)、召回率、精度和F2评分。

4.3. 与Kvasir-Sessile数据集上的其他最先进技术的比较

Kvasir-Sessile是Kvasir-SEG的一个子集，包含扁平和无柄息肉，被认为是最具临床相关性的数据集。如表1所示，我们的DTAN框架在所有指标上都表现出卓越的性能。值得注意的是，DTAN在mIoU上比XBound-Former高出2.77%，在mDSC上比XBound-Former高出3.06%。此外，它在mIoU和mDSC方面分别比dcau - net高出3.76%和3.11%，强调了我们的模型在分割精度方面取得的巨大进步，这在临床环境中至关重要。

图5提供了与其他最先进的模型相比，DTAN分割效果的视觉展示。图像序列，从左到右，包括:(1)输入图像;(二)基本事实;其次是(3)DTAN的分割结果;(4) DCSAUNet;(5) XBound-Former;(6) TGANet;(7) PraNet;(8) Attention-UNet;(9) Unet + +;(10) UNet。图5中的视觉比较生动地说明了我们提出的DTAN网络的细微分割能力，特别是在与Kvasir-Sessile数据集上的其他竞争模型进行基准测试时。

4.4. 与Kvasir-SEG数据集上其他最先进技术的比较

我们将不同网络的预测图与我们提出的DTAN的预测图进行了直观的比较，如图6所示。图中从左到右依次为:(1)输入图像;(二)基本事实;(3) DTAN的分割结果;(4) DCSAU-Net;(5) XBound-Former;(6) TGANet;(7) PraNet;(8) AttentionUNet;(9) Unet + +;至(10)UNet。表1列举了DTAN与-à-vis在Kvasir-SEG数据集上的其他领先方法的性能指标，以补充这种可视化分析。我们的DTAN方法在大多数评估指标中都获得了最高分。特别值得注意的是mIoU和mDSC指标，其中DTAN分别领先于迄今为止领先的XBound-Former 0.26%和1.52%。图6中描述的视觉比较强调了我们的网络，特别是其文本注意组件在处理不同分割挑战(包括多个目标和不同大小的对象)方面的有效性。从图6的第二到第四行可以看出分割边界的精度，这证明了我们的网络具有优越的边界划分能力。

表1四个具有挑战性的数据集的实验结果如下，按降序排列:(1)Kvasir-Sessile;(2) Kvasir-SEG;(3)格拉斯。在摘要中，最好的性能用粗体表示，第二好的性能用下划线表示。

图5所示。在Kvasir-Sessile数据集上，我们与可视化进行了全面的模型比较。按照从左到右的顺序，图像组织如下:(1)输入图像;(2)实际情况;(3) DTAN;(4) DCSAU-Net;(5) XBound-Former;(6) TGANet;(7) PraNet;(8) Attention-UNet;(9) Unet + +;(10) UNet。

4.5. 与其他最新技术在GlaS数据集上的比较

在GlaS数据集领域中，我们的方法表现出典型的性能，在比较分析中超越了主流分割技术。在mDSC指标中，我们的方法比领先的方法提高了1.04%，在mIoU指标中，我们的方法提高了0.85%。表1中的数据证实了这些进步，这些数据强调了我们方法的优越性能和明显优势。我们的方法熟练地描绘了物体边界，并捕获了医学图像中的结构细微差别，如图7中的视觉比较所示。我们整合了最先进的文本关注

利用扩散模型改进分割精度和增强鲁棒性的机制。我们的方法巧妙地利用语义和上下文线索，从而有效地从背景中区分前景元素，并减少无关背景噪声对分割结果的影响。

在检查GlaS数据集(一个较小规模的集合)时，可以观察到PraNet倾向于模糊边界。有趣的是，传统方法在这个数据集上表现出值得称赞的有效性，Unet++表现出特别令人印象深刻的性能，在mIoU和mDSC指标上都取得了接近最佳的结果。这一观察结果强调了所建立的分割模型的鲁棒性，并强调了在较小数据集上评估医学图像分割算法的复杂性。

在这样的数据集中，传统的方法可以利用积累的知识和专业知识，产生更精确的分割。相反，PraNet的性能表明可能需要额外的数据或定制的优化策略来改进其边界分割能力。这种现象间接地强调了我们提出的网络的成功，它将文本注意力引导与扩散模型协同起来，特别是在较小的数据集上下文中。

我们的网络在这个数据集上的卓越性能证实了我们的架构设计和算法策略的有效性。

4.6. 故障案例的可视化比较

为了进行严格的评估，我们对失效案例进行了深入的比较分析，从三个不同的数据集中选择表现不佳的样本，将我们的方法与XBound-Former、dcau - net和PraNet进行对比，如图8所示。视觉检查产生了几个关键的见解:边界定位精度:我们的方法在边界不清晰的样本中遇到困难，而PraNet和XBound-Former在边界描绘方面表现出更高的精度。

对噪声的敏感性:该方法对噪声图像的敏感性提高。相比之下，dcau - net和XBound-Former显示出令人称道的噪声恢复能力，在噪声干扰下保持稳健的分割性能。

细节捕获能力:相对于XBound-Former和DCSAUNet，我们的方法在识别复杂的结构和微小的对象方面面临挑战，这可能归因于模型体系结构或训练范例的差异。

过度分割和不足分割:在我们的方法输出中注意到过度分割或不足分割的实例。相反，PraNet和dcau - net的分割结果更加公平和精确。

一致性和连贯性:在保持分割的一致性和连贯性方面，XBound-Former和PraNet优于我们的方法，特别是在复杂的成像场景下。

这个分析练习不仅阐明了我们技术的局限性和潜在的增强途径，而且还为未来的改进提供了宝贵的见解，旨在增强模型在不同场景中的弹性和精度。此外，它还强调了XBound-Former, dcau - net和PraNet在解决具有挑战性的图像分割任务的复杂性方面的优势和功效。

图6所示。在Kvasir-SEG数据集上，我们与可视化进行了全面的模型比较。按照从左到右的顺序，图像组织如下:(1)输入图像;(2)实际情况;(3) DTAN;(4) DCSAU-Net;(5) XBound-Former;(6) TGANet;(7) PraNet;(8) Attention-UNet;(9) Unet + +;(10) UNet。

图7所示。在GlaS数据集上，我们与可视化进行了全面的模型比较。按照从左到右的顺序，图像组织如下:(1)输入图像;(2)实际情况;(3) DTAN;(4) DCSAU-Net;(5) XBound-Former;(6) TGANet;(7) Attention-UNet;(8) Unet + +;(9) UNet。

图8所示。不同图像分割方法失败案例的视觉比较。从左到右依次为:(1)输入图像;(2)实际情况;(3) XBound-Former;(4) DCSAU-Net;(5) PraNet。

4.7. 消融实验

在接下来的章节中，我们提出了一系列消融研究，旨在确定DTAN框架内主要成分的个体影响。我们将完整的DTAN模型与三个衍生变体并列，每个变体都省略了一个不同的模块，以量化这些核心组件对网络整体功效的贡献。为了保持比较分析的完整性，我们将Kvasir-Sessile数据集的输入分辨率标准化为256 × 256。这种方法论方法涉及对DTAN体系结构的系统解构，可以对每个模块进行细粒度检查。通过控制输入大小，我们减轻了潜在的偏差，从而确保观察到的性能差异完全归因于仔细检查下的体系结构变化。

4.7.1. 特性增强模块

为了严格评估FEM在医学图像分割架构中的有效性，我们开展了一项全面的实验活动。我们实例化了一个没有FEM的基线模型，并对集成了FEM的增强网络进行了基准测试。对于这些实验，我们标准化了输入

图像分辨率为256 × 256，并详细记录了结果的性能指标，如表2所示。实证结果表明，模型增强网络的优势显著，mIoU系数增加2.27%，mDSC系数增加1.69%。这种性能的提升是由于FEM战略性地应用了扩张卷积，有效地拓宽了接受野，从而赋予模型丰富的空间特征捕获能力。这与基线模型形成鲜明对比，基线模型尽管利用跳过连接来减轻由于分辨率降低而导致的信息减少，但缺乏FEM提供的广泛接受范围。图9提供了这些发现的视觉佐证，其中包含fem的网络在分割输出中表现出优于其不包含fem的对应物的边界描绘和结构保真度。

总之，经验验证和视觉对比分析有力地证实了FEM在放大网络空间特征识别方面的重要作用，最终在分割精度和细节清晰度方面取得了显着进步。

表二

为了全面评估DTAN的性能，我们对Kvasir-Sessile数据集进行了一系列烧蚀实验，并将其与三种变体模型进行了比较。从上到下排列，这些变型可以总结为:(1)不包括特征增强模块(FEM)的变型模型;(2)不包含文本属性提取模块的变体模型;(3)不包含多尺度特征聚合模块的变体模型。结果以以下方式突出显示:粗体文本表示性能最好的模型，而下划线文本表示性能第二好的模型。

4.7.2. 文本属性提取模块

为了提高网络的分割精度，我们创新性地集成了文本属性提取模块，从而在医学图像分割的主要工作之外建立了一个辅助分类任务。这个模块利用文本引导的注意力来增强网络的功效。它巧妙地

利用分割目标的维度和形态属性，将关键信息传递给网络结构。这种文本指导的注入对小目标的分割特别有利，小目标通常在样本人口中代表性不足。

文本引导注意力机制的战略性结合使我们的网络能够辨别细微的特征和上下文的细微差别，从而提高分割过程的精度。

文本属性提取模块(Text Attribute Extraction Module)增强了网络的判别能力，有助于更细致地区分具有不同属性的目标，并将其从背景环境中分离出来。

通过将我们的DTAN网络与文本属性提取模块并置进行实证验证。如表2所示，对比实验表明，该模块的加入使平均交叉比联合(mIoU)增强1.22%，平均骰子相似系数(mDSC)增强2.04%。这些发现有力地证实了文本属性提取模块在加强我们的网络分割能力方面的重要作用。

4.7.3. 多尺度特征聚合模块

CNN虽然擅长抽象语义内容，但通常会产生分辨率降低的特征图，这阻碍了精细结构的详细描绘，特别是在医学图像中微小目标的分割中。为了解决这个关键的限制，需要一种策略来协调高级语义丰富性和低级细节保存。为此，我们在DTAN框架中引入了MSFA模块，专门用于合并抽象级别范围内的特征映射。MSFA模块经过精心设计，可以纠正低分辨率特征图中的细节衰减，从而提高小尺度目标的分割保真度。

我们进行了实证调查，以确定MSFA模块的有效性。没有MSFA模块的DTAN网络的一个变体作为比较基线。表2所示的结果明确表明，对于msfa缺失的变体，mIoU和mDSC的减少幅度分别为0.76%和1.51%。这些发现证实了我们的前提，即语义和几何信息的协同融合可以显著提高分割性能。MSFA模块的集成证明了多尺度特征资本化的实用性，显著增强了网络在分割小尺度息肉方面的适应性。除了理论意义之外，MSFA模块的部署对于医学图像分割领域具有深远的现实意义。

5. 结论

综上所述，我们的研究通过引入DTAN网络，一种创新的文本注意机制和扩散模型的融合，取得了可喜的成果。从三个不同数据集的严格测试中获得的经验证据证明了DTAN优越的分割能力，特别是其在临床关键的Kvasir-Sessile数据集上的出色表现。

在这里，DTAN在mIoU和mDSC中分别以2.77%和3.06%的优势超过了强大的XBound-Former基准，从而巩固了其作为临床应用强有力工具的地位。

但我们也认识到未来改进的潜在领域，并承认以下限制。DTAN在不同医学成像任务和数据集中的通用性仍然是一个悬而未决的问题，值得进一步探索以完善其临床通用性。

此外，本研究仅限于二值分割任务。未来的研究努力可以扩展范围，包括更复杂的分割范例，如实例分割和多类分割，具有重要的临床意义。

医学分割哇哇哇哇哇哇哇哇哇

关注

11
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
DTAN: Diffusion-based Text Attention Network for medical imagesegmentation

提出了一种新的基于扩散模型的二维医学图像语义分割方法，证明了扩散模型在医学图像分割领域的适用性。通过在Kvasir-SEG[22]、KvasirSessile[23]和GLAS[24]数据集上的大量实验验证了我们提出的方法的有效性，证明了它作为医学图像分割的一种变革性方法的显著优势和潜力。在此背景下，我们引入了弥散文本注意网络(Diffusion text - attention Network, DTAN)，这是一个开创性的分割框架，它将文本注意原理与扩散模型相结合，以提高医学图像分割的精度和完整性。
复制链接

扫一扫