DermoSegDiff: A Boundary-aware Segmentation Diffusion Model for Skin Lesion Delineation

DermoSegDiff:用于皮肤病变描绘的边界感知分割扩散模型

MICCAI2023

摘要:皮肤病变分割对皮肤病的早期发现和准确诊断起着至关重要的作用。消噪扩散概率模型(ddpm)最近因其出色的图像生成能力而受到关注。在这些进展的基础上,我们提出了DermoSegDiff,这是一个在学习过程中包含边界信息的皮肤病变分割的新框架。我们的方法引入了一种新的损失函数,在训练过程中对边界进行优先排序,逐渐降低其他区域的重要性。我们还介绍了一种新的基于u - net的去噪网络,该网络可以熟练地将网络内的噪声和语义信息集成在一起。在多个皮肤分割数据集上的实验结果表明,DermoSegDiff优于现有的基于CNN、transformer和diffusion的方法,显示了其在各种场景下的有效性和泛化性。该实现可以在GitHub上公开访问。

1 介绍

在医学图像分析中,皮肤病变分割的目的是从皮肤图像中识别皮肤异常或病变。皮肤科医生传统上依靠视觉检查和手工描绘来诊断皮肤病变,包括黑色素瘤、基底细胞癌、鳞状细胞癌和其他良性或恶性肿瘤。然而,准确和快速地分割这些病变在早期发现、治疗计划和疾病进展监测中起着至关重要的作用。近年来,自动医学图像分割方法因其具有提高诊断结果准确性和可靠性的潜力而受到广泛关注。这些模式的成功医学图像分割任务可归因于深度学习技术的进步,包括卷积神经网络(cnn)[2,23,13]、隐式神经表征[21]和视觉变压器[29,4]。

最近,去噪扩散概率模型(Denoising Diffusion probistic Models, ddpm)[11]因其在图像生成领域的卓越表现而引起了人们的极大兴趣。这种新发现的认识导致了对ddpm的兴趣和探索激增,其产生高质量和多样化样品的卓越能力推动了ddpm的发展。在此基础上,研究人员成功地提出了新的医学图像分割方法,利用扩散模型来解决这一具有挑战性的任务[14]。EnsDiff[30]利用地面真值分割作为训练数据,输入图像作为先验,生成分割分布,从而创建不确定性图和隐式分割集合。Kim等人[16]提出了一种新的自监督血管分割框架。MedSegDiff[31]引入了基于dpm的医学图像分割,使用动态条件编码和FF-Parser来减轻高频噪声影响。MedSegDiff-V2[32]使用条件U-Net对其进行了改进,以改善噪声-语义特征的交互。

事实证明,边界信息在皮肤图像分割中至关重要,特别是在准确定位和区分皮肤病变与周围健康组织时[19,29,15]。边界信息提供了皮肤内不同区域之间的空间关系,与其他区域相比具有更大的意义。通过在训练阶段强调这些区域,我们可以通过鼓励模型专注于强化边界区域而减少其他区域的影响来获得更准确的结果。然而,大多数基于扩散的分割方法忽略了这一重要性,并对所有区域指定同等重要性。另一个关键的考虑因素是去噪架构的选择,这直接影响模型学习复杂数据关系的能力。大多数方法都遵循基线方法[11,22],忽略了在网络中更有效地结合语义和噪声交互的事实。

为了解决这些缺点,我们提出了一个新颖而直接的框架,称为DermoSegDiff。我们的方法通过考虑训练过程中边界信息的重要性并提出一种新的去噪网络来解决上述问题,该网络有助于更有效地理解噪声和语义信息之间的关系。具体来说,我们提出了一种新的损失函数来优先考虑分割中的区分边界。通过将动态参数纳入损失函数,我们增加了对边界区域的重视,同时随着我们远离边界而逐渐减少其他区域的重要性。此外,我们提出了一种新的基于u - net的去噪网络结构,通过结合精心设计的双路径编码器,增强了整个去噪过程中的制导集成。该编码器有效地结合了噪声和语义信息,提取了互补特征和判别特征。我们的模型还有一个独特的瓶颈,即线性注意[26]和原始自我注意[10]并行。最后,解码器接收合并后的输出从编码器传输的两个输出,并利用该信息来估计噪声的量。在ISIC 2018[9]、PH2[20]和HAM10000[27]皮肤分割数据集上,我们的实验结果表明,与CNN、变压器和基于扩散的最先进(SOTA)方法相比,我们提出的方法具有优越性,展示了我们的方法在各种场景下的有效性和泛化性。我们通过引入一种新的损失函数来强调在皮肤损伤分割中纳入边界信息的重要性,该损失函数鼓励模型优先考虑边界区域。我们提出了一种新的去噪网络,显著提高了降噪效果,增强了语义交互,在不同皮肤损伤数据集上,与基线模型相比,收敛速度更快。我们的方法超越了最先进的方法,包括cnn、变形金刚和基于扩散的技术,跨越了四个不同的皮肤分割数据集。

2 方法

图1概述了我们的基线DDPM模型,并展示了我们提出的用于皮肤病变分割的DermoSegDiff框架。传统的基于扩散的医学图像分割方法侧重于去噪输入图像的噪声分割掩模,我们提出在学习过程中加入边界信息可以显著提高性能。通过利用边缘信息来区分重叠的物体,我们的目标是解决模糊边界在困难情况下以及病灶和背景颜色相似的情况下所带来的挑战。我们首先介绍我们的基线方法。随后,我们深入研究了包含边界信息如何增强皮肤病变分割,并提出了一种将这些信息纳入学习过程的新方法。最后,我们介绍了我们的网络结构,通过去噪过程更有效地集成制导。

图1:(a)说明了基线的架构,(b)展示了我们提出的DermoSegDiff框架。

2.1 基线

本文采用的核心架构是基于ddpm的[11,30](见图1a)。扩散模型主要利用T时间步来学习训练数据的底层分布,表示为q(x0),通过对马尔可夫过程进行变分推理。该框架由两个过程组成:正向和反向。在正演过程中,模型从地面真值分割掩模(x0∈RH×W ×1)开始,逐级加入高斯噪声,逐渐转化为噪声掩模:

其中β1,…, βt−1,βt表示跨扩散步骤的方差表。

然后,我们可以简单地对基于地面真值分割的噪声掩模的任意一步进行采样,如下所示:

其中αt:= 1−βt,¯αt:= Qt j=1 αj和λ ~ N (0, I)。在相反的过程中,目标是在给定输入图像作为指导(g∈RH×W ×3)的情况下,通过利用神经网络来学习底层过程,重建在扩散过程中受到扰动的掩模的原始结构。为了实现这一点,我们将xt和g连接起来,并将连接的输出表示为It:= xt∥g,其中It∈RH×W x(3+1)。因此,将反向过程定义为

其中Ho等人[11]得出结论,我们可以训练一个模型来预测添加的噪声ϵθ,而不是直接使用神经网络预测µθ,从而得到一个简化的目标:Lb =∥λ−ϵθ (It, t)∥2。

2.2 边界感知重要性

虽然扩散模型在医学图像分割中显示出有希望的结果,但在训练过程中,我们如何平等地对待分割掩模的所有像素存在明显的限制。这种方法可能导致饱和的结果,破坏模型的性能。在像皮肤病变分割这样的分割任务中,边界区域的重要性明显高于其他区域。这是因为边界描绘了物体的边缘和轮廓,提供了有助于区分这两类物体的关键空间信息。为了解决这个问题,我们提出了DermoSegDiff,它有效地将边界信息合并到学习过程中,并鼓励模型优先捕获和保留边界细节,从而导致比基线方法更快的收敛速度。我们的方法遵循一个简单而高效的策略控制学习去噪过程。它侧重于强化边界的重要性,同时随着我们利用新的损失函数远离边界区域而逐渐减少这种强调。如图1所示,我们的前向过程与基线保持一致,两个去噪网络都产生输出ϵθ。然而,在计算损失函数时,两者之间的分歧变得明显。我们定义损失函数如下:

其中WΘ∈RH×W ×1是一个动态参数,旨在增加边界区域噪声预测的权重,同时随着我们远离边界而降低其权重(见图5)。WΘ是通过计算距离图和随后计算边界注意力两步过程得到的。此外,WΘ是动态参数化的,这取决于计算距离图的时间点(t)。这意味着它作为一个变量,根据每个图像在时间步长t的特定特征进行动态调整。

我们的距离图函数通过将地面真值分割掩码作为输入来操作。最初,它通过为边界像素赋值1来标识它们,同时将所有其他像素设置为零。为了增强所得到的距离图的分辨率,我们从左右两侧水平地扩展边界点(例如,对于256 × 256的图像,每行将有7个边界像素)。为了获得距离图,我们采用距离变换函数[17],这是一种常用的二值图像处理技术。该函数计算图像中每个非零(前景)像素与最近的零(背景)像素之间的欧几里得距离。结果是一个灰度级图像,其中前景区域内的点的强度被修改为表示从每个单独的点到最近边界的距离。为了标准化距离图的强度水平并提高其作为动态加权矩阵WΘ的适用性,我们采用图像处理中的伽马校正技术来计算边界注意力。通过调整伽马值,我们可以控制距离图的整体强度,从而获得更平滑的表示,从而增强其在损失函数中的有效性。

2.3 网络结构

编码器:

我们提出的去噪网络的整体架构如图2所示。我们提出了一种对U-Net网络架构的改进,用于预测噪声分割掩码xenci−1中添加的噪声ϵθ,由引导图像gi−1和时间嵌入t引导,其中i指第i个编码器。

编码器由一系列堆叠的编码器模块(EM)组成,随后在编码器的输出处进行卷积层以实现4 × 4张量。我们的方法不是简单地将xenci−1和gi−1连接并输入到网络中[30],而是通过在每个编码器模块(EM)中采用双路径特征提取策略来增强条件反射过程。

图2:所提出的去噪网络架构概述。符号L-Att、RB、EM、DM、LS-Att、S-Att分别对应线性注意、ResNet块、编码器模块、解码器模块、线性自注意和自注意模块。

重点研究了噪声分割掩模与制导图像之间的相互影响。每条路径包括两个ResNet块(RB),然后是一个线性注意(L-Att)[26],这是计算效率高,并产生非冗余的特征表示。为了吸收时间信息,在每个RB中引入了时间嵌入。时间嵌入是通过将t传递给正弦位置嵌入,然后是一个线性层,一个GeLU激活函数和另一个线性层来获得的。我们使用两个时间嵌入,一个用于gi−1 (tg),另一个用于xenci−1 (tx),以捕获特定于每个输入的时间方面。此外,我们利用RBx1捕获的知识,将其与引导分支进行转移和连接,从而得到hi。通过合并两条路径,我们捕获了提供数据综合视图的特定表示。左侧路径提取噪声相关特征,右侧路径提取语义信息。这种组合使模型能够结合互补和判别特征。在应用rbg2之后,我们引入了一种反馈机制,该机制采用rbg2输出的卷积并连接到RBx2输入。这种反馈允许结果特征(包含有关制导和噪声的总体信息)与噪声路径共享。通过这样做并将特征映射相乘,我们强调重要的特征,同时减弱不太重要的特征。这种乘法运算作为一种注意机制,其中共享的特征引导噪声路径集中在相关和信息区域。在对左路径进行线性关注之后和对右路径进行线性关注之前,我们提供了这两条路径的另一个特征连接,称为bi。在每个EM块的末尾,我们获得四个输出:hi和bi,用于从编码器到解码器的跳过连接,得到的丰富的xenci和gi被馈送到下一个EM块中继续特征提取过程。

瓶颈:接下来,我们连接最后一个EM块的输出,xencL和gL,并通过瓶颈模块(BM)将它们与时间嵌入tx一起传递,瓶颈模块(BM)包含一个ResNet块,一个线性自关注(LS-Att)和另一个ResNet块。LS-Att是一种双注意模块,它结合了空间关系的原始自注意(S-Att)和并行捕获语义上下文的L-Att,增强了整体特征表征。然后将BM的输出送入解码器。

解码器:解码器由堆叠的解码器模块(DM)组成,后面跟着一个输出ϵθ的卷积块。堆叠dm的数量与编码器中em的数量相同。与EM模块是双路模块不同,DM模块是单路模块。它包括两个连续的RB模块和一个L-Att模块。将来自编码器的bi和hi分别与应用RBd1前后的特征图进行连接。通过结合这些特征,解码器可以从编码器获得精确的信息,从而帮助更好地估计前向过程中添加的噪声量,并在学习过程中恢复丢失的信息。此外,为了在解码过程中保持噪声的影响,我们实现了从x到解码器的最后一层的额外跳过连接。这涉及到将DM1的结果特征映射与x连接起来,并将它们一起通过最后一个卷积块来输出估计的噪声ϵθ。

3 结果

所提出的方法已使用PyTorch库(版本1.14.0)实现,并已在单个NVIDIA A100图形处理单元(80 GB VRAM)上进行了培训。训练过程采用32个批大小,并使用Adam优化器,基本学习率为0.0001。如果损失函数在10次迭代后没有改善,则学习率降低0.5倍。在所有实验中,我们都将T设为250,并保持前向过程方差为常数,从β开始= 0.0004到β结束= 0.08线性递增。此外,在训练过程中,使用Albumentations (Albumentations)进行数据增强技术[5],包括Affine和Flip变换、CoarseDropout等空间增强方法,以及GaussNoise和RGBShift变换等像素增强方法。对于每个数据集,网络进行了40000次迭代训练。此外,我们经验地将α设为0.2。训练过程的持续时间约为每个样本1.35秒。值得注意的是,在我们的评估过程中,我们采用采样策略为测试集中的每个图像生成九个不同的分割掩码。为了获得最终的分割结果,我们平均这些生成的掩码并应用0的阈值。根据性能指标报告的结果是基于这个集成策略的。

表1:提出的方法与SOTA方法在皮肤病变分割基准上的性能比较。蓝色表示最佳结果,红色表示次佳结果

图3:ISIC 2018皮肤病变数据集上不同方法的视觉对比。真实边界用绿色表示,预测边界用蓝色表示。

3.1 数据集

为了评估所提出的方法,使用了三个公开可用的皮肤病变分割数据集,ISIC 2018 [9], PH2[20]和HAM10000[27]。

使用[3]中描述的相同预处理标准来训练和评估前面提到的三个数据集。HAM10000数据集也是ISIC存档的一个子集,其中包含10015张皮肤镜图像及其相应的分割掩码。7200张图像用作训练数据,1800张用作验证数据,1015张用作测试数据。使用与[1]相同的预处理,将所有数据集的每个样本缩小到128 × 128像素。

3.2 定量和定性结果

表1给出了我们提出的DermoSegDiff在所有四个皮肤病变分割数据集上的性能分析。评估包括Dice Score (DSC)、Sensitivity (SE)、Specificity (SP)、Accuracy (ACC)等几个指标,以建立综合的评估标准。在我们的符号中具有基线损失函数的模型称为DermoSegDiff-A,而具有建议损失函数的模型称为DermoSegDiff-B。结果表明,DermoSegDiff-B超越了CNN和基于transformer的方法,展示了其在不同数据集上的卓越性能和泛化能力。具体来说,与纯基于变压器的方法(如swan - unet[6])、基于cnn的方法(如DeepLabv3+[8])和混合方法(如UCTransNet[28])相比,我们的主要方法表现出更优越的性能。此外,与基线模型(EnsDiff)相比,DermoSegDiff-B表现出更高的性能[30],在ISIC 2018、PH2和HAM10000数据集上的DSC得分分别提高了+2.18%、+3.83%和+1.65%。此外,在图3中,我们直观地比较了各种皮肤病变分割模型产生的结果。结果清楚地表明,与同类方法相比,我们提出的方法在捕获复杂结构和产生更准确的边界方面表现出色。这一视觉证据强调了通过仔细地将边界信息整合到学习过程中所取得的卓越表现。

图4:与DermoSegDiffA中的传统Lb损失相比,我们提出的损失函数如何集中于分割边界的说明。热图是使用GradCAM从EM3获得的[25]。值得注意的是,DSD是DermoSegDiff的缩写。

具有基线损失函数的模型称为DermoSegDiff-A,而具有建议损失函数的模型称为DermoSegDiff-B。结果表明,DermoSegDiff-B超越了CNN和基于transformer的方法,展示了其在不同数据集上的卓越性能和泛化能力。具体来说,与纯基于变压器的方法(如swan - unet[6])、基于cnn的方法(如DeepLabv3+[8])和混合方法(如UCTransNet[28])相比,我们的主要方法表现出更优越的性能。此外,与基线模型(EnsDiff)相比,DermoSegDiff-B表现出更高的性能[30],在ISIC 2018、PH2和HAM10000数据集上的DSC得分分别提高了+2.18%、+3.83%和+1.65%。此外,在图3中,我们直观地比较了各种皮肤病变分割模型产生的结果。结果清楚地表明,与同类方法相比,我们提出的方法在捕获复杂结构和产生更准确的边界方面表现出色。这一视觉证据强调了通过仔细地将边界信息整合到学习过程中所取得的卓越表现。

4 消融研究

图4展示了我们创新的损失函数的效果。热图是利用GradCAM[25]生成的,它直观地表示了来自EM3的输出的梯度。结合一种新的损失函数导致重点向边界区域转移,与ISIC 2018数据集上的dermosegff - a的总体DSC分数相比,提高了0.51%。分析揭示了我们的模型中一个独特的行为。在噪声路径中,模型主要强调局部边界信息,而在制导分支中,模型旨在捕获更多的全局信息。然后,这些知识通过反馈传递到噪声分支,提供补充信息。本地和全局信息的结合使我们的模型能够有效地利用这两个方面并获得改进的结果。图5描述了WΘ相对于T的演变过程。在去噪的初始阶段过程中,当噪声影响显著时,边界区域的变化相对平滑。在此阶段,模型专注于捕获有关图像的更多全局信息。随着去噪过程的进行,在得到的图像中更容易区分前景和背景,权重会发生变化,将更多的重点放在边界区域,而忽略远离它的区域。此外,当我们接近x0时,对边界信息的强调变得更加明显。这些观察结果突出了WΘ的自适应性质及其在去噪过程中有效保留边界细节的作用。

5 局限性

尽管有这些令人鼓舞的结果,但也有一些局限性。例如,数据集中的一些注释可能不是完全精确的。图6a描述了数据注释中的某些不一致之处。然而,尽管存在这些标注挑战,与标注器相比,我们提出的方法在皮肤病变分割方面表现出更高的精度。结果表明,通过对掩码进行更细致的注释,我们提出的方法可以在所有评估指标中获得更高的分数。值得注意的是,在某些情况下,我们的模型偏离了准确的注释,错误地划分了区域。图6b描述了我们提出的方法无法准确分割皮肤病变的实例。准确划分皮肤图像中前景和背景之间的边界的困难源于这些区域之间的高度相似性,这需要我们在未来的工作中解决更多的工作。

6 结论

本文介绍了用于皮肤病灶分割的DermoSegDiff扩散网络。我们的方法引入了一种新的损失函数,它强调分割的边界区域的重要性,并在训练过程中赋予它更高的权重。此外,我们提出了一个去噪网络,可以有效地对噪声语义信息进行建模,从而提高性能。

  • 5
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值