登上Nature！基于SAM做医学图像分割新突破

人工智能大模型讲师培训咨询叶梓

已于 2024-07-25 15:18:34 修改

阅读量1.3k

点赞数 20

文章标签：计算机视觉人工智能深度学习语言模型机器学习医疗医学图像

于 2024-07-24 21:02:22 首次发布

原文链接：https://mp.weixin.qq.com/s/B7MUfAud49vrOZNUMajbIQ

版权

转载自：AI科研技术派

基于SAM做医学图像分割取得新突破：MedSAM登上Nature！作者将SAM成功扩展到医学图像，提供了一种简单高效的微调方法，使SAM成为适用于分割各种医学图像的通用工具！

实际上该方向一直是研究的热门，也是相对好出论文的方向！主要在于，自然图像和医学图像之间存在很大差，传统CV模型，在医学图像分割领域一直存在“水土不服”问题。而SAM的运用，为打破这一鸿沟提供了更多可能！

为了让大家紧跟领域前沿，寻找合适的创新点，我给大家整理10种最新的改进方法，且提供了源码，方便大家复现！主要涉及：SAM与UNet结合、医学SAM适配器等等。

出自论文：Segment Anything in Medical Images

论文简述：任意分割模型(SAM)对自然图像分割产生了革命性的影响，但其在医学图像上的表现有限。这项工作提出了MedSAM，首次尝试将SAM的成功扩展到医学图像，目标是创建一个用于各种医学目标分割的通用工具。具体来说，作者首先策划了一个大规模的医学图像数据集，包括11种不同模式的20多万个口罩。然后，开发了一种简单的微调方法，使SAM适用于一般医学图像分割。对21个三维分割任务和9个二维分割任务的综合实验表明，MedSAM在三维和二维分割任务上的平均DSC分别为22.5%和17.6%。

出自论文：SAM-Med2D

论文简述：分割任意模型(SAM)代表了自然图像分割中最先进的研究进展，通过输入提示(如点和边界框)取得了令人印象深刻的结果。在本篇论文中，作者介绍了SAM- med2d，这是将SAM应用于医学2D图像的最全面的研究。具体来说，作者首先从公共和私人数据集中收集和整理了大约460万张图像和19.7万个口罩，构建了一个包含各种模式和对象的大规模医学图像分割数据集。然后，在该数据集上对SAM进行全面微调，并将其转化为SAM- med2d。与以往的方法只采用边界框或点提示作为交互式分割方法不同，作者通过更全面的提示，包括边界框、点和蒙版，将SAM应用于医学图像分割。作者还对原始SAM的编码器和解码器进行了微调，以获得性能良好的SAM- med2d，从而实现了迄今为止最全面的微调策略。最后，作者进行了全面的评估和分析，以探讨SAM-Med2D在不同形态、解剖结构和器官的医学图像分割中的性能。同时，在MICCAI 2023挑战的9个数据集上验证了SAM-Med2D的泛化能力。

出自论文：Segment Anything Model for Medical Images?

论文简述：SAM在各种自然图像分割任务中取得了令人印象深刻的效果。同时，零射击、高效的MIS可以很好地减少标注时间，促进医学图像分析的发展。因此，sams似乎是一种潜在的工具，其在大型医疗数据集上的性能有待进一步验证。作者收集并整理了52个开源数据集，构建了包含16种模态、68个对象、553K个切片的大型医学分割数据集。在所谓的COSMOS 553K数据集上对不同的SAM测试策略进行了全面分析。大量的实验验证了SAM在医学图像中对物体感知的手动提示(如点和框)的表现更好，从而在提示模式下比在所有模式下表现更好。此外，SAM在某些特定对象和模态上表现出色，但在其他情况下则不完善甚至完全失败。最后，作者分析了不同因素(如基于傅里叶的边界复杂度和分割对象的大小)对sam分割性能的影响。

出自论文：SAM-Med3D

论文简述：由于SAM的原始2D结构忽略了3D空间信息，因此很难通过在医学数据上微调SAM来解决这些问题。本文介绍了SAM-Med3D，这是针对3D医学图像修改SAM的最全面的研究。作者的方法的特点是其在两个主要方面上的全面性：首先，通过全面地将SAM重新构造为一个在全面处理的大规模体积医学数据集上训练的彻底的3D架构；其次，对其性能进行全面评估。具体而言，作者使用超过131K个3D掩模和247个类别来训练SAM-Med3D。SAM-Med3D擅长捕获3D空间信息，表现出具有竞争力的性能，与医学领域性能最佳的微调SAM相比，提示点明显更少。作者还提出了一种基于SAM-Med3D的3D医学图像分割方法，即基于SAM-Med3D的3D医学图像分割方法。然后在15个数据集上评估其能力，并从多个角度分析它，包括解剖结构、模态、目标和泛化能力。

出自论文：SAM on Medical Images: A Comprehensive Study on Three Prompt Modes

论文简述：分段任意模型(SAM)最近首次亮相，激发了许多研究人员探索其在零射击泛化能力方面的潜力和局限性。尽管sams在几个数据集上表现出了竞争力，但作者仍然想研究它在医学图像上的零射击泛化。众所周知，医学图像标注的获取通常需要专业从业者付出大量的努力。因此，如果存在一种基础模型，可以简单地根据几个点提示给出高质量的掩模预测，这个模型无疑将成为医学图像分析的游戏规则改变者。为了评估SAM是否有潜力成为医学图像分割任务的基础模型，作者收集了超过12个涵盖各种器官和模式的公共医学图像数据集。还探讨了在不同的模式下，什么样的提示可以导致最佳的零射击性能。此外，作者发现一个模式表明，盒大小的扰动将显著改变预测精度。

出自论文：Medical SAM Adapter: Adapting Segment Anything Model for Medical Image Segmentation

论文简述：任意分割模型(SAM)是近年来在图像分割领域得到广泛应用的一种方法。许多个体实验和最近的研究表明，SAM在医学图像分割中表现不佳。如何找到缺失的部分，将SAM强大的分割能力扩展到医学图像分割中是一个自然的问题。在本文中，作者提出了一种可能的解决方案，即通过适配器根据参数有效的微调范例对预训练的SAM模型进行微调。虽然这项工作仍然是少数将流行的NLP技术适配器转移到计算机视觉案例中的一个，但这个简单的实现在医学图像分割上显示出惊人的良好性能。我们称之为医学SAM适配器(medical SAM Adapter, MSA)的医学图像，在包括CT、MRI、超声图像、眼底图像和皮肤镜图像在内的19种不同图像模式的医学图像分割任务中表现出优异的性能。

出自论文：SAMUS: Adapting Segment Anything Model for Clinically-Friendly andGeneralizable Ultrasound Image Segmentation

论文简述：尽管SAM在自然图像上表现出色，但当面对医学图像时，特别是那些涉及低对比度、模糊边界、复杂形状和微小尺寸的对象时，它仍面临着显著的性能下降和有限的泛化。在本文中，作者提出了SAMUS，为超声图像分割量身定制的通用模型。与以前基于SAM的通用模型相比，SAMUS不仅追求更好的泛化能力，而且还追求更低的部署成本，使其更适合于临床应用。具体地，基于SAM，引入并行CNN分支以通过交叉分支注意力将局部特征注入ViT编码器中以用于更好的医学图像分割。然后，开发了位置适配器和特征适配器，以使SAM从自然到医学领域以及从需要大尺寸输入（1024×1024）到小尺寸输入（256×256）进行适配，以实现更临床友好的部署。收集包括约30k个图像和69k个掩模并且覆盖六个对象类别的综合超声数据集用于验证。

出自论文：nnSAM: Plug-and-play Segment Anything Model Improves nnUNet Performance

论文简述：医学图像分割领域也从nnUNet等专门的神经网络中受益匪浅，nnUNet是在特定领域的数据集上训练的，可以自动配置网络以适应特定的分割挑战。为了结合基础模型和特定领域模型的优点，作者提出了nnSAM模型，将SAM模型与nnUNet模型协同集成，以实现更准确和鲁棒的医学图像分割。nnSAM模型利用了SAM强大而稳健的特征提取能力，同时利用了nnUNet的自动配置能力来促进数据集定制学习。作者对nnSAM模型在不同大小的训练样本上的综合评估表明，它允许少镜头学习，这与医学图像分割高度相关，因为高质量的、带注释的数据可能是稀缺的，并且获得成本很高。通过融合两者的优势，nnSAM将自己定位为医学图像分割的潜在新基准，提供了一种将广泛适用性与专业效率相结合的工具。

出自论文：Ladder Fine-tuning approach for SAM integrating complementary network

论文简述：近年来，基础模型被引入到计算机视觉领域，展示了各种各样的任务。这些模型，如分段任意模型(SAM)是使用大量数据集训练的广义模型。目前，正在进行的研究重点是探索这些广义模型在特定领域(如医学成像)的有效利用。然而，在医学成像中，由于隐私问题和其他因素而缺乏训练样本是将这些广义模型应用于医学图像分割任务的主要挑战。为了解决这个问题，对这些模型进行有效的微调，以确保它们的最佳利用是至关重要的。在这项研究中，作者提出将互补卷积神经网络(CNN)与标准SAM网络结合起来进行医学图像分割。为了减少对大型基础模型进行微调的负担，实现具有成本效益的训练方案，作者只关注对附加的CNN网络和sam解码器部分进行微调。该策略显著减少了训练时间，并在公开可用的数据集上取得了具有竞争力的结果。

出自论文：A medical image annotation framework based on large vision model.

论文简述：近年来，大型视觉模型，即任意分割模型(SAM)，在计算机视觉领域，特别是在图像分割方面，产生了革命性的影响。SAM提出了一种新的提示分割范式，该范式具有显著的零点泛化能力。广泛的研究已经探索了SAM在各种下游任务中的潜力和局限性。在本研究中，作者提出了SAMMed，这是一个利用SAM功能的增强的医学图像注释框架。结果表明，仅使用大约5个输入点就可以显著提高分割精度。SAMMed模型旨在通过自动生成输入提示来加速注释过程。所提出的SAP-Net模型仅用5个带注释的切片就取得了优异的分割性能，对肾脏和肝脏的分割平均Dice系数分别为0.80和0.82。

出自论文：UN-SAM: Universal Prompt-Free Segmentation for Generalized Nuclei Images

论文简述：在数字病理学中，精确的核分割是至关重要的，但受到组织类型、染色协议和成像条件的多样性挑战。最近，segment anything model(SAM)在自然场景中表现出压倒性的性能，并对医学成像适应性强。为了克服当前SAM方法的局限性，同时保留其优势，作者提出了用于核分割的通用无提示SAM框架(UN-SAM)，通过提供具有显著泛化能力的全自动解决方案。具体而言，为了消除对每个核提示的劳动密集型注释要求，作者设计了一个多尺度的自提示生成(SPGen)模块，通过自动生成高质量的掩码提示来指导分割任务，从而彻底改变临床工作流程。此外，为了释放SAM在各种核图像上的泛化能力，作者提出了一种基于多尺度自提示生成的SAM框架(SPGen)，该框架可以自动生成高质量的掩码提示，以指导分割任务。设计了一种领域自适应调优编码器(DT-Encoder)将视觉特征与领域通用知识和领域特定知识无缝协调，并进一步设计了一种领域查询增强的解码器(DQ-Decoder)，利用可学习的领域查询在不同核领域进行分割解码。广泛的实验证明，UN-SAM具有卓越的性能。