Annotator Consensus Prediction for MedicalImage Segmentation with Diffusion Models

基于扩散模型的医学图像分割的注释器共识预测

摘要:

医学图像分割的一个主要挑战是多个专家提供的注释中观察者之间和观察者内部的差异很大。为了解决这一挑战,我们提出了一种利用扩散模型进行多专家预测的新方法。我们的方法利用基于扩散的方法将来自多个注释的信息合并到一个反映多个专家共识的统一分割图中。我们在多个专家注释的医学分割数据集上评估了我们的方法的性能,并将其与最先进的方法进行了比较。结果证明了该方法的有效性和鲁棒性。

1 介绍

医学图像分割是一项具有挑战性的任务,需要在复杂和有噪声的图像中准确地描绘出感兴趣的结构和区域。通常使用多个专家注释器来解决这一挑战,为同一图像提供二值分割注释。然而,由于经验、专业知识和主观判断的差异,注释可能会有很大差异,导致观察者之间和内部的可变性。此外,手工标注是一个耗时和昂贵的过程,限制了分割方法的可扩展性和适用性。

为了克服这些局限性,提出了多标注器预测的自动化方法,该方法旨在融合来自多个标注器的标注,生成准确一致的分割结果。现有的多注释器预测方法包括多数投票[7]、标签融合[3]和标签抽样[12]。

近年来,扩散模型已经成为一种很有前途的图像分割方法,例如使用学习到的语义特征[2]。通过对迭代过程中图像强度值的扩散进行建模,扩散模型可以捕获图像的底层结构和纹理,并可以将感兴趣的区域从背景中分离出来。此外,扩散模型可以处理

噪声和图像伪影,并适应不同的图像模式和分辨率。

在这项工作中,我们提出了一种新的多注释器预测方法,使用扩散模型进行医学二值分割。多注释器预测的目标是融合来自不同注释器的同一图像的多个注释,从而获得更准确、更可靠的分割结果。在实践中,我们利用基于扩散的方法为每个级别的共识创建一个地图。为了得到最终的预测结果,我们对得到的图进行平均,得到一个软图。

我们在由多个注释者注释的医学图像数据集上评估了所提出方法的性能。我们的结果证明了所提出的方法在处理观察者之间和观察者内部的可变性方面的有效性和鲁棒性,并实现了比最先进的方法更高的分割精度。该方法可以提高医学图像分割的效率和质量,便于临床决策。

2 相关工作

多注释器策略:

最近的研究重点是多注释器标签问题[7,12]。在训练过程中,Jensen等[12]对每张图像随机抽取不同的标签。这种方法产生了一个更精确的模型。Guan等[7]分别预测每个注释者的评分,并获得相应的权重用于最终预测。Kohl等人[15]使用相同的采样策略来训练概率模型,该模型基于U-Net结合条件变分自编码器。另一种最近的概率方法[20]将扩散模型与KL散度结合起来,以捕获不同注释器之间的可变性。在我们的工作中,我们使用共识图作为基础事实,并将其与其他策略进行比较。

扩散概率模型(DPM)

是一类基于马尔可夫链的生成模型,它可以将简单分布(例如高斯分布)转换为从复杂分布中采样的数据。扩散模型能够生成高质量的图像,可以与最新的GAN方法竞争,甚至优于GAN方法[23,9,19,5]。Huang等人[11]引入了扩散模型似然估计的变分框架。随后,Kingma等人[14]提出了一种变分扩散模型,该模型在图像密度的似然估计中产生了最先进的结果。

条件扩散概率模型

在我们的工作中,我们使用扩散模型作为条件生成来解决给定图像的图像分割问题。扩散模型的条件生成包括类条件生成的方法,它是通过在时间步嵌入中加入一个类嵌入来获得的[19]。文献[4]提出了一种指导DDPM生成过程的方法。这种方法允许基于给定的参考图像生成图像,而无需任何额外的学习。在超分辨率领域,将低分辨率图像上采样,然后在每次迭代时将低分辨率图像以通道方式拼接到生成的图像中[21,10]。一个类似的该方法在拼接之前将低分辨率图像通过卷积块[16]。

先前的研究直接应用扩散模型,基于条件输入图像生成分割掩码[1]。Baranchuk等人[2]从预训练的扩散模型中提取特征用于训练分割网络,而我们的扩散模型生成输出掩码。与Wolleb等人[26]基于扩散的图像分割方法相比,我们的架构在两个主要方面有所不同:(i)条件信号的拼接方法,(ii)处理条件信号的编码器。我们还使用较低的T值,这减少了运行时间。

图1所示。下图展示了我们提出的多注释器分割方法。带噪声分割映射xt的输入Ik图像在我们的网络中迭代传递T次,以获得输出分割映射x0。每个网络接收共识级别c作为嵌入zc以及时间步长数据。

3 方法

我们使用多注释器进行二值分割的方法采用了一个扩散模型,该模型以输入图像I∈RW ×H、步长估计t和共识指数c为条件。扩散模型使用步长估计函数ϵθ迭代地更新其当前估计xt。如图1所示。

给定一组C注释{Aik}Ci=1与输入样本Ik相关联,我们定义C层的基础真值一致映射为

在训练过程中,我们的算法迭代采样共识c ~ U的随机水平[1,2,…C]和一个输入输出对(Ik, Mck)。迭代次数1≤t≤T从均匀分布中采样,XT从正态分布中采样。

然后由xtT ck, t计算出xt:

其中¯α是一个常数,它定义了附加噪声的时间表。

当前步骤索引t和共识索引c是整数,分别用一对查找表转换为zt∈Rd和zc∈Rd。

嵌入被传递到不同的网络F, D和E。

在下一步中,我们的算法用网络F编码输入信号xt,用网络G编码条件图像Ik。我们计算条件信号ut = F (xt, zc, zt) + G(Ik),并将其应用于网络E和D,其中输出是对xt−1的估计。

最小化损失函数为:

训练过程如图1所示。扩散步骤总数T由用户设置,C是数据集中不同注释器的数量。我们的模型使用二元共识映射(mck)作为基础真值进行训练,其中k是样本id, c是共识指数。

推理过程如图2所示。我们为每个共识指数采样我们的模型,然后计算所有结果的平均值以获得我们的目标,这是一个表示注释者协议的软标签地图。从数学上讲,如果共识图是完美的,这相当于用认为该位置是掩码一部分的注释的分数来分配每个图像位置(如果c个注释器标记了一个像素,它将出现在1…c级)。在第4节中,我们将我们的方法与其他变体进行了比较,并表明使用相同的扩散模型直接估计分数图远不如单独估计每个共识水平然后平均。

由于在推理过程中计算xt−1包括添加1[t>1]≈β 12t z,其中z来自标准分布,因此在相同输入的推理方法的不同运行之间存在显着的可变性,参见图2(b)。

为了利用这种现象,我们多次运行推理算法,然后对结果进行平均。通过这种方式,我们稳定了分割结果,提高了性能,如图2(c)所示。我们在所有实验中使用25个生成实例。在消融研究中,我们量化了这种平均过程的增益。

结构

在这个架构中,U-Net的解码器D是常规的,它的编码器被分解成三个网络:E、F和g。最后一个网络编码输入图像,而F编码当前步骤xt的分割图。

两个处理后的输入具有相同的空间维度和通道数量。基于剩余连接的成功[8],我们对这些信号求和F (xt, zt, zc) + G(I)。这个和然后传递给U-Net编码器E的其余部分。

输入图像编码器G由残差密集块[24](Residual in Residual Dense Blocks, rrdb)构建而成,rrdb结合了多级残差连接,没有批处理归一化层。G有一个输入2d -卷积层,一个周围有残余连接的RRDB,然后是另一个2d -卷积层,漏RELU激活和最后一个2d -卷积输出层。F是一个2d -卷积层,具有单通道输入和L通道输出。

ϵθ的编解码器部分,即D和E,基于U-Net,类似于[19]。每个级别都由残差块组成,在分辨率为16x16和8x8的情况下,每个残差块后面都有一个注意层。瓶颈包含两个剩余块,中间有一个注意层。每个注意层包含多个注意头。

残差块由两个卷积块组成,其中每个卷积块包含群范数、SiLU激活和2d -卷积层。残差块通过一个线性层、SiLU激活和另一个线性层接收时间嵌入。然后将结果添加到第一个2d卷积块的输出中。此外,残留块具有传递其所有内容的残留连接。

在编码器侧(网络E),在相同深度的残差块之后有一个下采样块,这是一个步幅为2的2d -卷积层。在解码器侧(网络D),在相同深度的残差块之后有一个上样块,该上样块由距离最近的使空间大小加倍的插值组成,然后是一个2d -卷积层。编码器中的每一层都有一个到解码器端的跳过连接。

4 实验

我们进行了一系列实验来评估我们提出的多注释器预测方法的性能。我们的实验完成了QUBIQ基准的数据集我们将我们提出的方法的性能与几种最先进的方法进行了比较。

图2所示。在QUBIQ基准的所有数据集上进行多重分割的结果。(a)数据集,(b)输入图像,(c)在相同输入上具有不同共识指数的多次运行获得的共识图的子集,(d)平均结果,通过“bwr”色标在0(蓝色)和1(红色)之间可视化,以及(e)地面真值。

数据集  生物医学图像量化挑战(QUBIQ)中的不确定性量化是最近可用的挑战数据集,专门用于评估rater间变异性。QUBIQ包括4个不同的CT和MRI模式的分割数据集,包括脑生长(1个任务,MRI, 7个评分者,34例训练和5例测试)、脑肿瘤(1个任务,MRI, 3个评分者,28例训练和4例测试)、前列腺(2个子任务,MRI, 6个评分者,33例训练和15例测试)和肾脏(1个任务,CT, 3个评分者,20例训练和4例测试)。

根据[13],使用软骰子系数进行评估,并设置五个阈值水平,分别为(0.1,0.3,0.5,0.7,0.9)。

实现细节

在以往的研究中,扩散步数为1000步[9],甚至有4000步[19]。文献提示越多越好[22]。

在我们的实验中,我们使用了100个扩散步骤来减少推理时间。

我们所有的实验都使用了AdamW[18]优化器。基于RRDB块越多,结果越好这一直觉,我们在不过度减少批处理大小的情况下使用了尽可能多的块。

如下[13],对于QUBIQ基准的所有数据集,输入图像分辨率和测试图像分辨率均为256 × 256。实验以4张图像和8个RRDB块的批处理大小进行。

网络深度为7,每个深度的通道数为[L, L, L, 2L, 2L, 4L, 4L],其中L = 128。所使用的扩展是:随机缩放一个在[0.9,1.1]范围内均匀采样的因子,在0到15度之间旋转,在两个轴上在[0,0.1]之间平移,以及水平和垂直翻转,每次应用的概率为0.5。

结果

我们将我们的方法与FCN[17]、MCD[6]、FPM[27]、DAF[25]、MV-UNet[13]、LS-UNet[12]、MH-UNet[7]和MRNet[13]进行了比较。

我们还比较了我们自己训练的模型,使用公开代码AMIS[20]和DMISE[26]。第一个是在每个注释者都是不同样本的场景中训练的(下面是我们消融结果的“无注释者”变体),第二个是在共识设置上训练的,类似于我们的方法。从表1可以看出,我们的方法在QUBIQ基准的所有数据集上都优于所有其他方法。

消融实验 

我们在表2中评估了替代训练变体作为消融研究。在“Annotator”变体中,我们的模型学习生成每个注释器二进制分割图,然后对所有结果进行平均以获得所需的软标签图,与“Consensus”变体相比,它获得了较低的分数,这是我们的完整方法。在“无注释者”变体中,图像与随机注释者配对,而不使用注释者id,与“注释者”变体相比,其平均得分略低。我们

还要注意,我们的“No annotator”变体在五个数据集中的四个中优于模拟AMIS模型,这表明我们的体系结构在某种程度上是可取的。

在第三种变体中,我们的模型学习预测软标签地图,该地图表示直接标记每个图像位置的注释者的比例。由于这导致生成的图像更少,因此我们每个测试样本生成的图像数量是原来的C倍。这种变体的得分也比我们的方法低得多。

接下来,我们研究了生成图像的数量对性能的影响。

结果如图3所示。一般来说,增加生成实例的数量往往会提高性能。但是,达到最佳性能所需的运行次数因类而异。例如,对于Brain和前列腺1数据集,使用5个生成的图像可以实现最佳性能,而对于前列腺2,使用25个生成的图像可以实现最佳性能。图4描绘了来自多个数据集的样本,并显示了生成图像数量增加时的进展情况。可以看出,随着生成图像数量的增加,分割结果越来越接近目标分割。

5 讨论

为了研究注释者协议与模型性能之间的关系,我们通过计算整个数据集中每对注释者之间的平均Dice分数进行了分析。这个两两骰子分析的结果可以在表3中找到,其中更高的平均得分表明注释者之间的共识更大。

我们观察到,我们提出的方法在注释者之间具有更高一致性的数据集上表现出改进的性能,特别是肾脏和

前列腺1数据集。相反,其他方法的性能在肾脏数据集上显着恶化,导致Dice得分与整体性能之间的相关性较低。

此外,我们还检查了注释器数量与模型性能之间的关系。令人惊讶的是,我们发现注释器的数量和模型的性能之间没有显著的相关性。

6 结论

将标记一个区域所需的共识水平从非常高的水平转移到一个注释者的水平,可以被视为创建了一个从非常保守的分割掩码到非常自由的动态转变。事实证明,扩散模型很好地捕捉到了这种动态,扩散模型可以很容易地以共识的水平为条件。我们做的另一个有趣的观察是,获得的共识掩模的平均值(超过共识水平)是一个有效的软面具。将这两个元素结合在一起,我们可以在多个二值分割任务中获得最先进的结果。

  • 5
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值