论文阅读:3年前沿的2020D医学图像分割方法:幸福的家庭都一样吗?

原文:Cutting-edge 3D Medical Image Segmentation Methods in 2020: Are Happy Families All Alike?


开始阅读:

摘要:

图像分割是医学图像分析中最重要和最流行的任务之一,在疾病诊断、手术计划和预后评估中起着至关重要的作用。在过去的五年中,一方面,针对不同医学图像中的各种器官和病变,人们提出了成千上万种医学图像分割方法,对不同方法进行公平比较变得越来越困难。另一方面,国际细分挑战可以提供一个透明的平台,公平地评估和比较不同的方法。在本文中,我们全面回顾了2020年10个3D医学图像分割挑战中的顶级方法,涵盖了各种任务和数据集。我们还发现了前沿分割方法中的“幸福家庭”实践,这对于开发强大的分割方法是有用的。最后,我们讨论了未来应该解决的开放性研究问题。

介绍

医学图像分割旨在以半自动或全自动的方式描绘感兴趣的解剖结构,如肿瘤、器官、组织等,在临床实践中有许多应用,如放射学分析[1]、治疗计划[2]、生存分析[3]等。目前,医学图像分割也是一个活跃的研究课题。图1为医学图像分析界最大的国际盛会第23届国际医学图像计算与计算机辅助干预会议(MICCAI 2020)1的论文标题词云。

可以发现,“分割”这个词的频率非常高,把高频单词放在一起可以形成一个有意义的阶段“使用深度学习/网络进行图像分割”。

自2015年传奇医学图像分割方法U-Net[4]出现以来,在过去的五年中,针对各种分割任务,提出了许多新的分割方法2。由于手头有如此多的分割论文,比较它们并确定方法进展变得极其困难,因为所提出的方法通常在不同的数据集上进行评估,这些数据集具有不同的数据集分割、度量和实现。

公共细分挑战提供了一个了解当前尖端方法的标准平台,在这个平台上,解决方案以透明和公平的方式进行评估和比较。MICCAI 2020共有10项国际3D医学图像分割挑战赛3。所有这些挑战都遵循生物医学图像分析挑战(BIAS)倡议。

具体来说,挑战设计是透明和标准化的概述了10个细分挑战,大致可以分:

5个单模态图像分割任务,包括3个CT图像分割任务和2个MR图像分割任务;

5个多模态图像分割任务,包括2个双模态任务、2个三模态任务和1个四模态任务。

在本文中,我们首先全面回顾了10个3D医疗细分挑战和相关的顶级解决方案。我们还在顶部的解决方案中确定了“幸福家庭”的元素。最后指出了医学图像分割中存在的问题和未来的发展方向。

任务概述十个3D医学图像分割挑战。的凹陷。“Targets”表示每个任务中的分割目标;# Class和# Train/Val。/Test’分别表示训练集、验证集和测试集中的类数和用例数。' - '表示没有验证用例。“+”表示使用其他分割指标(DSC和HD除外)来评估挑战参与者的解决方案。

 

本文的主要贡献总结如下:

  • 我们全面回顾了国际上最新的十大3D医学图像分割挑战,包括任务描述、数据集,更重要的是,参与者团队的顶级解决方案,这些解决方案代表了当前最前沿的分割方法。
  • 我们在顶部方法中确定了广泛使用的“幸福家庭”组件,这对于开发强大的分割方法很有用。
  • 总结了目前医学图像分割领域尚未解决的几个问题和潜在的研究方向,以期促进医学图像分割领域的发展。

前言:在基于深度学习的医学图像分割中广泛使用的方法 

网络体系结构

nnU-Net [8], no new net,是一种基于广泛使用的U-Net架构[4],[9]的医学图像动态全自动分割框架。它可以为任何新的分段任务自动配置预处理、网络架构、训练、推理和后处理。在没有人工干预的情况下,nnUNet超越了大多数现有的方法,在53个分割任务中有33个达到了最先进的水平,在其他方面的表现与排行榜上的顶级条目相当。目前,nnU-Net因其强大、灵活、开箱即用和开源的特点,已成为3D医学图像分割任务中最受欢迎的骨干。

损失函数

交叉熵损失和Dice损失在计算方式和应用领域上有一些区别。

  1. 计算方式:

    • 交叉熵损失:通过计算模型的输出概率分布与真实标签之间的差异,使用负对数似然方法来衡量预测结果的准确性。
    • Dice损失:通过计算模型预测结果和真实标签之间的重叠区域的相似度,度量预测结果的准确性。
  2. 适用领域:

    • 交叉熵损失:主要应用于分类任务,通过比较模型预测的类别概率分布与真实标签进行模型优化。
    • Dice损失:主要应用于图像分割任务,特别是在处理类别不平衡问题时效果较好。
  3. 对类别不平衡的敏感度:

    • 交叉熵损失:在类别不平衡的情况下,容易导致模型偏向于多数类别,而忽视少数类别的情况。
    • Dice损失:相对于交叉熵损失,Dice损失对类别不平衡具有更好的鲁棒性,能够更好地处理少数类别的分割任务。

总的来说,交叉熵损失主要应用于分类任务,通过比较类别概率分布来优化模型;而Dice损失主要应用于图像分割任务,通过计算预测结果和真实标签的重叠区域来优化模型。Dice损失在处理类别不平衡的情况下具有一定的优势。根据具体的任务需求和数据特点,可以选择适合的损失函数来优化深度学习模型。

损失函数用于指导网络学习有意义的预测,并指示网络应该如何权衡错误。交叉熵损失和Dice损失是分割任务中最常用的两种损失函数。 

nnU-Net的默认损失函数是未加权的和

评价指标

  • Dice Similarity Coefficient (DSC)和Hausdorff Distance (HD)是两种常用的分割指标,分别用于测量区域重叠率和边界距离。设G和S分别为基础真值和分割结果。DSC定义为
  • 类似的度量借据(Jaccard)有时被用作替代方法,它由
  • 设BG和BS分别为ground truth和segmentation的边界点。豪斯多夫距离定义为 

 单模态图像分割

CADA:脑动脉瘤分割

CADA挑战赛中的任务是将动脉瘤从三维CT图像中分割出来。组织者提供92例用于培训,23例用于测试,这些病例是没有血管痉挛的脑动脉瘤。这个挑战的主要困难是高度不平衡的标签。

如图2(第一行)所示,动脉瘤非常小,在CT图像中大部分体素为背景。

采用Jaccard (IoU)、Hausdorff距离(HD)、平均距离(MD)、所有动脉瘤预测体积与参考体积之间的Pearson相关系数(volume Pearson R)、预测体积与参考体积的平均绝对差(volume Bias)、预测体积与参考体积差的标准差(volume Std)等6个指标对分割结果进行定量评价。对于排序,根据所有参与者执行最大最小归一化。通过这种方式,每个单独的度量值在0(所有参与者中最坏的情况)和1(参考和预测分割之间的完美匹配)之间取值。排名分数是作为标准化指标的平均值计算的。

CADA挑战赛排行榜前两名队伍的定量结果。粗体数字表示最好的结果。

表2显示了挑战排行榜前2名团队的定量分割结果6。“君马”团队取得了最好的借据,而“医疗云”团队在其余五个指标上取得了更好的表现。然而,最终的分数差距是微乎其微的。不幸的是,“医疗云”队的方法是不可用的。因此,我们只提出“君马”团队的解决方案。具体来说,Ma和Nie[12]基于nnU-Net[8]开发了他们的方法,其中主要修改为在训练和推理过程中使用较大的补丁大小(192 ~ 224 ~ 192)。五个模型进行五重交叉验证,每个模型在TITAN V100 32G GPU上进行训练。每个测试用例由训练的五个模型的集合来预测。

冠状动脉的自动分割

ASOCA挑战赛中的任务是从心脏计算机断层血管造影(CCTA)图像中分割冠状动脉。组织者提供了40个培训案例和20个测试案例。这一挑战的主要困难是不平衡问题和外观变化。一方面,冠状动脉在整个CT图像中所占的比例很小。另一方面,健康病例和不健康病例的动脉具有不同的外观。图2(第二行)给出了一个可视化的示例。使用DSC和HD95对分割结果进行评价和排序。

在机器学习中,不平衡问题是指训练数据中某些类别的样本数量明显少于其他类别的样本数量的情况。这种不平衡分布可能会对模型的训练和性能产生负面影响。

在处理不平衡问题时,常见的挑战包括:

  1. 数据倾斜:某些类别的样本数量远远少于其他类别,导致模型在训练过程中对于少数类别的学习不足。
  2. 模型偏好:模型倾向于预测多数类别而忽略少数类别,因为多数类别的训练样本更多。

为了应对不平衡问题,可以采取以下方法:

  1. 重采样技术:通过欠采样(随机删除多数类别样本)或过采样(复制或生成少数类别样本)来调整数据分布,使不同类别的样本数量更加均衡。
  2. 类别权重调整:为不同类别设置不同的权重,使得模型在训练过程中更关注少数类别,可以通过调整损失函数中的权重或采用类别加权交叉熵损失等方法。

ASOCA挑战赛排行榜前两名队伍的定量结果。粗体数字表示最好的结果

表3显示了MICCAI 2020期间挑战排行榜前2名团队的定量分割结果。第1名的DSC较好,第2名的HD95较好,说明前2名的队伍区域重叠和边界距离较好。

“若诚高”团队使用nnU-Net[8]作为骨干。整个管道包括三个独立的网络,分别完成心外膜分割、动脉分割和比例图回归三个任务[13]。最终分割结果由动脉分割结果和比例图回归结果综合得出,并去除心外膜外血管。SenYang团队提出了一种改进的2D U-Net,带有选择性内核(SK-UNet),其中规则卷积块被编码器中的SE-Res模块取代。此外,在解码器中使用了sk模块[14],包括不同的卷积滤波器和核大小,以利用多尺度信息。

 VerSe:大规模椎骨分割挑战

VerSe挑战的分割任务是将椎骨从CT图像中分割出来。主办方提供了100个培训用例,100个公开测试用例(参与者可以访问测试用例),100个隐藏测试用例(该测试集不公开,需要参与者使用Docker容器提交解决方案)[15],[16]。注释由28个不同的椎骨组成,但每个案例可能只包含部分椎骨。在这一挑战中存在几个困难:不同病例的视场(FoV)高度变化、大的扫描尺寸、相邻椎骨高度相关的形状、扫描噪声、椎骨骨折、金属植入物的存在等等。

VerSe 2019的卫冕冠军Payer等人[17]通过SpatialConfiguration-Net[18]和U-Net[4],[9]再次成功赢得了今年的挑战。具体来说,他们提出了一种从粗到精的方法,包括三个阶段:

  • 第一阶段:通过基于3D u - net的热图回归网络对整个脊柱进行定位,该网络可以去除背景;网络输入大小范围为32 * 32 * 32 ~ 128 * 128 * 128
  • 第二阶段:通过3D SpatialConfigurationNet同时定位和识别所有椎骨地标,该网络将地标的局部外观与空间配置相结合;在训练过程中,网络输入大小从64°°64°64到96°96°256,在推理过程中,网络输入大小高达128°128°448。为了解决缺失的椎骨,采用基于磁共振成像的图形模型来细化定位结果。
  • 第三阶段:通过3D U-Net单独分割每个椎体。输入尺寸为128 ~ 128 ~ 96。

M&Ms:多中心,多供应商和多疾病心脏图像分割挑战

M&Ms挑战的任务是从多中心、多供应商和多疾病的心脏MR图像中分割左、右心室(分别为LV和RV)腔和左心室心肌(MYO)。组织者提供175个案例用于培训,40个案例用于验证,160个案例用于测试,这些案例来自四家扫描仪供应商。具体来说,175个训练案例包括75个来自供应商A的有标签的案例,75个来自供应商B的有标签的案例,以及25个来自供应商c的未标记的案例。40个验证案例包括来自四个供应商中的每个供应商的10个案例。160个测试用例由来自四个供应商中的每一个的40个用例组成。这一挑战的主要困难是测试集的领域转移,这要求解决方案应在不同的临床中心、扫描仪供应商和患者情况之间具有通用性。应该注意的是,验证用例和测试用例都不是公开的

 EMIDEC:延迟增强心脏MRI对心肌梗死的自动评估

EMIDEC挑战的任务是从延迟增强心脏MR图像中分割心肌、梗死和无回流区域。主办方提供100个培训用例和50个测试用例[22]。这一挑战的主要困难是对比度低,短轴方向变化,异构心肌病理区形态,正常与病理分布不平衡。

图3(第二行)给出了一个可视化的示例。评估和排名指标包括

  • 临床指标:心肌体积(单位:mm3)、体积(单位:mm3)、梗死面积和无血流面积百分比的平均误差;
  • 几何指标:不同区域的平均DSC和心肌的豪斯多夫距离(三维)。

表6给出了最终排行榜前三名球队的定量分割结果8。排名前2的Zhang和Ma团队都使用了两阶段级联框架,并基于nnU-Net开发了他们的方法[8]。

具体而言,Zhang[23]首先使用二维nnU-Net,重点关注片内信息,获得初步分割,然后使用三维nnU-Net,重点关注体空间信息,对分割结果进行细化。三维nnU-Net以初步分割和原始图像的组合作为输入。最后,在后处理步骤中去除分割结果中的分散体素。Ma[24]在两个阶段使用了2D nnU-Net。首先用二维U-Net分割整个心脏,包括左心室和心肌。然后,将整个心脏裁剪为感兴趣区域(ROI)。最后,训练一个新的二维U-Net来分割ROI中的违规区域和无回流区域。最后的模型是每个阶段5个2D nnU-Net模型的集合。Feng等人9使用扩张型二维UNet[25]和基于旋转的增强,其目的是克服不同的短轴方向。

Zhang[23]和Ma[24]的方法在心肌和再血流面积上的结果相当,但Zhang在梗死上的结果明显好于Ma[24]和Feng等人的方法,前者在DSC上的结果分别高出9%和17%。主要的方法差异在于Zhang在第二阶段使用了3D网络,而Ma和Feng等人使用了2D网络。因此,其中一个可能的原因可能是3D网络可以比2D网络使用更多的图像上下文信息,并且也导致更好的性能。

多模态三维图像分割

ADAM:颅内动脉瘤检测和分割挑战

ADAM挑战(http://adam.isi.uu.nl/)的任务是从TOF-MRA和结构MR图像中分割动脉瘤。组织者提供113个培训案例和141个测试案例。在113例训练病例中,93例包含至少一个未经治疗的未破裂颅内动脉瘤,20例没有颅内动脉瘤。

在141例检测病例中,117例包含至少一个未经治疗的未破裂颅内动脉瘤,26例没有颅内动脉瘤。每个案例有两个文件夹:

  • original”文件夹:包含所有原始TOF-MRA图像和结构图像(T1, T2或FLAIR)。用elastix10将结构图像与TOF图像对齐。
  • “pre”文件夹:所有图像都通过“n4biasfieldcorrection”11进行预处理,以纠正偏置场的不均匀性。

这一挑战的主要困难是极不平衡的问题。具体来说,图像中位数尺寸为512 ~ 512 ~ 140,而动脉瘤中位数体素尺寸为238,导致前景-背景比为6:5 ~ 10´6的极不平衡。图4给出了可视化的示例。参与者可以使用任何提供的图像来发展他们的方法。测试集是由组织者隐藏的,参与者应该将他们的方法与Docker容器一起提交。

emmmmm,还有一些和上面类似的方法,但是感觉不太能看懂,先看看后面吧

讨论 

在基于深度学习的分割方法中,损失函数是最重要的元素之一。nnU-Net使用Dice +交叉熵作为默认损失函数。对于极度不平衡的分割任务,修改损失函数可以获得更好的性能。例如,HECKTOR挑战的获胜者使用Dice + Focal loss。在ADAM挑战赛中,冠军和亚军都使用了Dice + TopK loss。更详细的分割损失函数分析请参见[26]。

对感兴趣区域(ROI)进行裁剪可以消除不相关的背景组织,减少计算量。因此,可以先训练模型得到粗分割,然后裁剪ROI。然后用ROI图像训练一个新的模型(与粗分割相连接)来细化分割结果。该策略在心肌病理和小器官分割任务中非常有效,EMIDEC和MyoPS挑战赛的优胜者以及abc挑战赛的亚军都使用了该策略。

模型集成集成是融合多个单一模型性能的有效方法。所有的顶级团队在他们的最终解决方案中都使用了多个模型。这些模型通常使用不同的数据分割、数据增强技术、网络或损失函数进行训练,然后通过平均预测、多数投票或级联框架进行组合

在多模态分割任务中,如何融合多幅不同图像是一个关键问题。常见的基于深度学习的图像融合方法包括输入级融合、特征级融合和输出级融合。

在五个多模态分割挑战中,五个获胜团队中有四个使用了输入级融合,直接将多个图像连接起来作为网络输入。ADAM挑战赛的冠军团队只使用了一种模态,而获得类似成绩的亚军团队也使用了串联策略来融合不同的模态

通过对十大分割挑战的总结可以发现,深度学习在许多医学图像分割任务上取得了前所未有的甚至是人类水平的性能,但仍然存在一些问题。接下来,我们介绍了医学图像分割方法存在的一些问题,以及促进其进一步发展的机遇。

标准化的方法报告许多挑战组织者要求参与者提交一篇简短的论文来描述他们的方法。然而,这些论文通常以自己的方式组织,可能会遗漏一些必要的细节。目前,生物医学图像分析挑战(Biomedical Image Analysis ChallengeS, BIAS)倡议[7]极大地提高了挑战质量,其中使用清单来规范审查过程,提高挑战结果的可解释性和可重复性。因此,也有对挑战方法报告质量控制的要求很高。MICCAI黑客马拉松挑战赛的优胜团队提供了一个初步的尝试(https://github.com/JunMa11/ MICCAI- reproducibility - checklist),用一个清单来处理方法的可重复性,但需要更多的努力来使这个清单更完整,并被我们的社区所接受。

毫无疑问,精度(例如,DSC, HD)是分割方法的重要因素。然而,在临床实践中部署训练好的模型时,分割方法的运行时间和GPU内存需求也是至关重要的。目前,大多数顶级方法使用模型集成,这可能是耗时和需要非常高的计算资源。为了促进基于深度学习的医学图像分割在临床上的应用,需要更多地关注模型的运行效率。

当前深度学习的理论研究通常有很强的假设[48]、[49]、[50],如平滑性、无限宽度等。然而,在实际实践中,许多尚未解决的问题仍然没有解决。例如,设计分段网络架构的理论原则是什么?是否存在一般化差距?我们应该如何估计它?损失函数是什么样的?培训过程是否收敛到一个好的解决方案?有多快?当开始一个新的分割任务时,我们需要多少数据?收集不同的数据集对于开发可推广的分割模型至关重要,因为临床实践需要训练好的模型可以应用于许多(看不见的)医疗中心。根据挑战结果(例如,M&Ms, BraTS, HECKTOR),我们发现当测试集包含来自新医疗中心的未见病例时,分割性能显着下降。因此,在组织分割挑战时,有不同的数据集来评估模型的泛化能力是很重要的。目前,构建可在医疗中心、疾病和扫描仪供应商之间一致应用的通用模型仍然是一个未解决且具有挑战性的问题

结论

挑战为各个研究小组提供了一个开放和公平的平台,以测试和验证他们在临床环境中获得的通用数据集上的分割方法。本文总结了医学三维图像分割的十大挑战和相应的顶级方法。此外,我们还识别了顶级方法中广泛涉及的“幸福家庭”元素,并给出了医学图像分割中潜在的未来研究方向。此外,我们还维护一个公共GitHub存储库(https://github.com/JunMa11/SOTA-MedSeg),以收集基于各种国际细分挑战的前沿细分方法。我们希望通过对前沿的三维图像分割方法的回顾,对相关领域的早期和高级研究人员都有帮助。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值