Segment Anything in Medical Images翻译

Abstract

 分隔任何模型(SAM)已经彻底改变了自然图像分割,但其在医学图像上的性能是有限的。这项工作提出了MedSAM,这是第一次尝试将SAM的成功扩展到医学图像,其目标是创建一个通用的工具,用于分割各种医疗目标。

具体来说,我们首先策划了一个大规模的医学图像数据集,包括跨越11种不同模式的超过20万种掩码。然后,我们开发了一种简单的微调方法,使SAM适应于一般的医学图像分割。

对21个3D分割任务和9个2D分割任务的综合实验表明,MedSAM在3D和2D分割任务上的平均骰子相似系数(DSC)分别为22.5%和17.6%。

这些代码和训练过的模型可以在https://github.com/bowang-lab/MedSAM上公开获得。

  • 关键词:分割基础模型·通用·多模态。

引言

医学图像分割是医学成像分析中的一项基本任务,它包括识别和描绘各种医学图像中的感兴趣区域(ROI),如器官、病变和组织。准确的分割对于许多临床应用是必不可少的,包括疾病诊断,治疗计划,和监测疾病进展。基于深度学习的模型由于能够学习复杂的图像特征,并提供准确、高效的分割结果,因此在医学图像分割中显示出了巨大的前景。然而,目前的模型往往是针对特定的成像模式和目标量身定制的,其泛化能力是有限的。因此,开发能够适应各种医学成像模式和分割目标的基础模型对推进医学图像分析至关重要。

近年来,分割基础模型在自然图像分割[26][51][53]领域取得了巨大的进步,能够以全自动或交互式的方式准确、高效地分割目标。这些模型通常基于transformer架构,并利用预先训练好的权重来在广泛的自然图像上实现最先进的性能和前所未有的泛化能力。

第一个也是最著名的分割基础模型是分段任何模型[26],它在超过10亿个掩码上进行训练,并具有基于提示(例如,边界框、点、文本)或以全自动方式生成精确的对象掩码的强大能力。然而由于自然图像和医学图像之间的显著差异,这些模型在医学图像分割中的适用性仍然有限。一些研究表明,SAM在典型的医学图像分割任务[13],[20],[18],[39],[52],[37],[35]和其他具有挑战性的场景[11],[46],[22],[23],上可能会失败,特别是当目标的边界较弱时。这并不奇怪,因为SAM的训练集主要包含自然图像数据集,其中的对象通常具有很强的边缘信息。

在本研究中,我们引入了用于通用图像分割的MedSAM分割,这是首次尝试将SAM适应于医学领域。受SAM强大能力的成功的启发,主要来自大规模的监督培训,我们首先策划了一个多样化和全面的医学图像数据集,包含超过20万名口罩,跨越11种医学图像模式。接下来,我们分析了SAM的网络架构的组成部分,并评估了它们在医学图像分割任务中的潜在效用。最后,我们开发了一种简单的微调方法来适应SAM的医学图像分割。我们在21个三维图像分割任务和9个二维图像分割任务上的实验表明,该方法可以显著提高SAM在医学图像分割任务上的性能。

2 Methods

2.1 A teardown analysis of SAM

SAM利用了基于transformer的架构[47],该架构已被证明在自然语言处理[9]和图像识别任务[14]中非常有效。具体来说,SAM使用基于transformer的图像编码器来提取图像特征,并使用提示编码器来合并用户交互,然后使用掩码解码器来基于图像嵌入、提示嵌入和输出令牌生成分割结果和置信度分数。

图像编码器中的视觉转换器采用掩码自动编码器建模[17]进行预训练,该[17]可以处理高分辨率图像(即1024×1024)。获得的图像嵌入缩小比例为16×(64×64)。提示编码器是为不同的用户输入而定制的。SAM支持四种不同的提示:点、框、文本和掩码。每个点都由傅里叶位置编码[45]和两个可学习的标记进行编码,分别用于指定前景和背景。边界框由其左上角和右下角的点编码进行编码。自由形式的文本由CLIP [38]中的预先训练过的文本编码器进行编码。掩码提示符与输入图像具有相同的空间分辨率,并由卷积特征图进行编码。最后,掩模解码器采用轻量级设计,由两层动态掩模预测头和一个交叉联合(IoU)得分回归头组成。掩模预测头可以生成3个4×的缩小掩模,分别对应于对象的整个对象、部分和子部分。

目录

Abstract

关键词:分割基础模型·通用·多模态。

引言

2 Methods

2.1 A teardown analysis of SAM

2.2从医学的角度来理解SAM的效用

2.3 MedSAM:专用的医学图像分割基础模型

3实验和结果

3.1数据的整理和预处理

 3.2 Training protocol


SAM支持三种主要的分割模式:以全自动的方式分割一切,边界框模式,和点模式6。图2显示了三种分割模式在典型腹部计算机断层扫描(CT)图像上的结果。分段-全模式根据图像强度将整个图像划分为6个区域(图2b)。然而,由于两个主要原因,这种分割结果的使用范围有限。一方面,分割结果没有语义标签。另一方面,临床医生主要关注临床场景中有意义的roi,如肝脏、肾脏、脾脏和病变。基于边界框的分割模式只需给出左上角和右下角的点,就可以对右肾产生良好的结果(图2c)。对于基于点的分割模式(图2d),我们首先给出右肾中心的一个前景点,但分割结果包括整个腹部组织。然后,我们在过分割区域上添加一个背景点。分割Mask缩小到肝脏和右肾。在肝脏上添加另一个背景点后,我们最终得到了预期的肾脏分割。

综上所述,在应用SAM进行医学图像分割时,分段-全模式容易产生无用的区域分区,而基于点的模式则不明确,需要多次预测校正迭代。相比之下,基于边界盒的模式可以明确指定ROI,不需要多次试验和错误,获得合理的分割结果。此外,目前常用的注释方法之一是标记放射学中最长的直径,如实体肿瘤(RECIST)[15]的反应评价标准。我们可以很容易地根据RECIST注释获得目标的边界框提示符。因此,我们认为在医学图像分割任务中使用SAM时,基于边界盒的分割模式比基于分段一切分割模式和基于点的分割模式具有更广泛的实用价值

2.3 MedSAM:专用的医学图像分割基础模型

为了使SAM适应于医学图像的分割,有必要选择一个合适的用户提示符和网络的组成部分来进行微调。基于以上分析,边界框提示符是指定分割目标的正确选择。SAM的网络架构包含三个主要组成部分:图像编码器、提示编码器和掩码解码器。人们可以选择调整它们中的任何一种组合。该图像编码器是基于一个视觉变压器,它在SAM中具有最大的计算开销。为了最小化计算成本,我们保持图像编码器冻结。提示符编码器会对边界框的位置信息进行编码,并且可以是从SAM中预先训练的边界框编码器中重用,所以我们也冻结了这个组件。需要微调的其余部分是掩码解码器,如图3所示。

 图3。MedSAM:微调SAM的医学图像分割。我们冻结了图像编码器和提示编码器,并只微调掩码解码器。

由于图像编码器可以在提示模型之前应用,我们可以对所有训练图像进行图像嵌入,以避免每个提示对图像嵌入的重复计算,从而显著提高训练效率。掩码解码器只需要生成一个掩码,而不是生成三个掩码,因为在大多数情况下,边界框提示符可以清楚地指定预期的分割目标。

3实验和结果

3.1数据的整理和预处理

我们整理了一个大规模和不同的数据集,包括33个分割任务,包括脑室、脑瘤、小脑、胆囊、心脏和左右心室、肝脏、胰腺和前列腺分割在不同的Mr序列(例如。,T1、T2、ADC,天赋)[24][10][6][41][5][8][29][42],腹部肿瘤,COVID-19感染、胆囊、头颈部肿瘤、肝脏、胰腺、胸腔积液和胃分割CT图像[34][19][7][33][32][42][4][28][27][12],乳腺肿瘤,肝脏和血管分割超声图像[2][48],心肺分割x线图像[40],息肉和仪器分割内窥镜图像[3][16],血管分割视网膜图像[1],结肠腺分割病理图像[43][44]。

对于医学图像,强度值可以跨越很大的范围。为了便于稳定的训练,我们将所有图像归一化到相同的强度范围。对于CT图像,我们将强度值裁剪到了[-500,1000]的范围,因为这个范围包含了大多数组织。对于其他图像,我们将强度值剪切到第0.95和第99.5百分位数之间的范围。然后,我们将所有强度值归一化到范围[0,255],并将图像调整到256×256×3的均匀大小。

 3.2 Training protocol

每个数据集被随机分成80个和20个来进行训练和测试。排除了小于100像素的分割目标。由于SAM是为二维图像分割而设计的,因此我们将三维图像(即CT、MR、PET)沿着平面外维度划分为二维切片。然后,我们使用预先训练好的ViT-Base模型作为图像编码器,通过将归一化后的图像输入图像编码器(图像编码器将图像大小转换为3×1024×1024),离线计算所有嵌入的图像。在训练过程中,边界框提示是由0-20像素的随机扰动生成的。损失函数是Dice损失和交叉熵损失之间的非加权和,在各种分割任务[21][31]中被证明是鲁棒性。该网络由Adam [25]优化器进行优化,初始学习速率为1e-5。

3.3对21个三维图像分割任务和9个2维图像分割任务的评价结果

我们使用Dice相似系数(DSC)和归一化表面距离(NSD,公差1 mm)来评估Ground Truth和分割结果之间的区域重叠比和边界共识,这是两个常用的分割度量[36]。表1和表2展示了预训练的SAM(ViT-B)模型和我们的MedSAM在21个3D图像分割任务和9个2D图像分割任务上的定量比较。可以发现,MedSAM在所有30个分割任务中都取得了显著的改进,在3D图像分割任务中平均DSC为22.5%,NSD为39.1%,在2D图像分割任务中平均DSC为17.6%,NSD为18.9%。

预先训练好的SAM模型在小脑和肝脏分割等大器官分割任务中表现出良好的性能,但在腹部肿瘤、肺COVID-19感染和胸腔积液分割等方面效果较差。此外,预先训练的SAM努力在所有3D任务上生成一致的边界,导致NSD分数较低。相反,对于2D任务,预先训练的SAM表现出相当的平均DSC分数,但更好的NSD分数。这是因为分割目标在二维图像中通常有更明确的边界,比如内窥镜视频中的仪器。相比之下,我们的MedSAM模型在所有任务中的DSC和NSD得分上都显著优于预先训练过的SAM模型。

我们还在图4中给出了更多的分割例子。预先训练好的SAM模型特别容易产生过度分割的结果,这使得精确分割具有弱边界的目标具有挑战性。例如,预先训练好的SAM未能为超声波和Mr图像中的病变提供准确的分割结果,即使有一个相对紧密的边界框提示。此外,当边界框内的内容是异构的时,模型可能无法识别出正确的分割目标。此外,当分割边界清晰的目标时,当周围的物体也有良好的对比度时,SAM可能会产生异常值,如内窥镜图像中的仪器分割所示。

通过对医学图像数据集上的SAM进行微调,MedSAM大大提高了该模型识别具有挑战性的分割目标的能力。具体来说,MedSAM比预先训练的SAM有三个显著的改进。首先,MedSAM提高了模型识别小物体的能力,即使在边界框提示符中存在多个分割目标。其次,该模型在超声和脑Mr图像中损伤和左脑室分割等弱边界表现出更强的鲁棒性。最后,MedSAM有效地减少了来自分割目标周围的高对比度物体的干扰,从而减少了异常值。

 4 Discussion and Conclusion

我们已经证明,微调掩码编码器可以导致显著的改进,在各种分割任务和图像模式。然而,其整体性能仍落后于专业模型,如腹部CT图像[33]中肝脏分割和心脏Mr图像[10]中左心室分割的模型,特别是在边界共识方面。在病变分割任务方面也有相当大的改进空间,包括腹部肿瘤和肺部COVID-19感染分割。

几种故障情况如图5所示。预先训练过的SAM和MedSAM对处理遗漏边界的物体的能力都很有限,这从心脏Mr图像中左心室分割的过分割结果中可以看到。该模型还可能会遗漏边界框内的微小和低对比度的物体,如在腹部CT图像中的肝脏肿瘤分割中。此外,如果在分割目标周围有多个相似的实例,一个大的边界框可能会引入不正确的分割结果,如在病理图像中的腺体分割中。

我们预计,MedSAM的限制可以通过利用更大的模型和增加数据集的大小来克服。在我们的研究中,我们使用了最小的图像编码器(ViT-base),并没有微调图像编码器以减少计算负担。通过使用更大的主干模型和对图像编码器进行微调,可以进一步提高模型容量,学习更多的医学图像特征。虽然我们的训练集包含超过20万个口罩,但与SAM的训练集相比,它仍然相对较小。SAM的数据消融研究表明,100万张图像的模型的性能与1100万张图像[26]的模型相当。因此,一个拥有100万张图像(大约1亿个面具)的训练集对于这个训练集来说将是一个合理的规模。在未来,我们计划将我们的培训集扩大到这个规模,以进一步提高MedSAM的表现。

除了边界框外,涂鸦是医学图像分割[50][49]中另一种常用的用户交互,目前的SAM不支持它。这种相互作用不仅简单而有效,而且对一些非致密的目标,如心肌分割,也非常有用。因此,我们计划将基于涂鸦的提示合并到MedSAM中,并将其与边界框提示结合起来,用于各种分割任务,进一步提高模型的分割精度。此外,将MedSAM集成到常用的医疗图像查看器中,如3D切片机[30]和Napari8,将使更多的最终用户能够在不需要广泛的编码知识的情况下访问最先进的模型。

总之,SAM在自然图像上的成功证明了建立分割基础模型的可行性。本研究首次尝试通过在医学图像数据集上微调预训练后的模型,将SAM应用于医学图像分割。我们在广泛的任务和图像模式上取得了显著的性能改进。我们希望这项工作将激发更多的研究,在医学图像领域建立分割基础模型,我们预计该领域将在不久的将来经历一个GPT-4时刻。我们的代码和训练过的模型都是公开可用的,并且我们提供了一个关于在定制的新数据集上微调SAM的逐步教程。我们的代码和训练过的模型已经公开使用,我们还提供了一个关于在定制的新数据集上微调SAM的逐步教程。我们期待着与社区合作,共同推进这一令人兴奋的研究领域。

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值