SAM技术是一种先进的图像分割方法,其拥有强大的功能和卓越的零样本泛化能力
引言
图像分割是一项关键的计算机视觉任务,它的重要性和广泛应用场景不可低估。通过将图像划分为不同的区域或像素,图像分割有助于识别和理解图像中的对象、边界和结构。
在医学领域、自动驾驶、机器人领域有多种具备落地可行性的应用场景。此外,图像分割还应用于图像编辑、虚拟现实、人脸识别和视频处理等多个多媒体数据处理领域。准确和高效的图像分割技术对于实现许多现代科技的发展和创新至关重要。
作为一种可提示的分割系统,能够精确地分割不熟悉的对象和图像,无需额外训练。灵活的集成能力和可拓展的输出为其赋予了广泛的应用潜力。SAM的最大优势在于对物体的一般概念的深入理解,使其能够在零样本情况下实现对不熟悉物体和图像的泛化。
SAM技术定义
业界普遍认为这个模型对于图像识别领域的意义堪比ChatGPT之于自然语言处理领域的意义,实现了识别一切物体的能力,有望颠覆传统的CV发展路径;尤其是在开源的背景下,全球机器视觉产业均迎来GPT-3时刻。
- SAM技术的全称和基本概念
SAM全称:Segment Anything Model,是一个图像分割模型,能够根据指令实现图像分割,准确识别图像中的对象。
- SAM技术在图像分割中的作用和意义
基于其强大的图像分割能力,该模型或可实现图片多样分割、可提示的设计分割、可扩展的输出以及零样本迁移。SAM足够通用,涵盖广泛用例,并且可以在新的图像领域上即开即用,无需额外的训练。
SAM技术原理
图像识别,顾名思义是通过AI模型分析图片,感知图片中有什么物体、在什么位置、物体的大概情况如何,将图片中的这些信息转化为计算机语言,实现对图像的处理与计算。那图像识别模型是如何像人一样能够“看懂”图片呢?我们可以用下图简单概括一下:
基于对于图像各个部分的特征判断,将图像识别模型的能力可以概括为以下4种类型:
模型的诞生
模型构成与实现
根据Meta公司官网和论文《Segment Anything》中的解释,此次推出的Segment Anything Model (SAM)由3个部分组成:任务、分割模型、数据集。
任务(Task):可提示( promptable)的分割任务,描述通用的预训练目标,实现广泛的下游(后处理)任务。
所谓的“可提示的分割任务”,其实就是使用者将想要分割的区域通过提示的方式(prompt)传递给模型,模型可以理解使用者的分割意图,在对应的区域完成分割,给出mask(掩膜:使用特定的图形对需要处理的图像中的某个区域进行遮挡)。使用者给出的prompt可以是一个点(point)、定位框(bounding box)、掩膜(mask)、自由格式文本(txt),或者指示所分割物体的任何信息。
SAM模型接受了数百万张图像和超过十亿个掩膜的训练,可以保证给出的掩膜是有效的,即使在提示不明确或涉及多个对象时(例如,指定一个衬衫,既可能是指示衬衫,也可能是指示穿着衬衫的人),输出的也会是提示区域的一个合理掩膜。
分割模型(