【项目学习】记录segment-anything、SAM及衍生自动标注工具使用

本文章由三部分组成:
1.Segment Anything Model(SAM)概述:是我学习概念做的记录可以不看直接跳过
2.SAM衍生的标注工具使用:试用了两个开源的SAM衍生的标注工具记录
3.遇到的问题

参考:
1.segment-anything官方demo演示
2.SA基础模型图像分割的介绍
3.segment-anything项目

一、Segment Anything Model(SAM)概述

Segment Anything Model(SAM)——致力于图像分割的第一个基础模型。

分割——识别哪些图像像素属于一个对象——是计算机视觉的核心任务之一。

Segment Anything项目是mata AI提出的一种用于图像分割的新任务、数据集和模型。发布了通用Segment Anything 模型 (SAM)和Segment Anything 1-Billion 掩码数据集 (SA-1B),这是有史以来最大的分割数据集。

Segment Anything 项目的核心是减少对特定于任务的建模专业知识、训练计算和用于图像分割的自定义数据注释的需求。目标是建立一个图像分割的基础模型:一个可提示的模型,它在不同的数据上进行训练并且可以适应特定的任务,类似于在自然语言处理模型中使用提示的方式。然而,与互联网上丰富的图像、视频和文本不同,训练这种模型所需的分割数据在网上或其他地方并不容易获得。因此,借助 Segment Anything,同时开发一个通用的、可提示的分割模型,并使用它来创建一个规模空前的分割数据集。

SAM 已经了解了对象是什么的一般概念,它可以为任何图像或任何视频中的任何对象生成掩码,甚至包括它在训练期间没有遇到的对象和图像类型。SAM 的通用性足以涵盖广泛的用例,并且可以开箱即用地用于新的图像“领域”——无论是水下照片还是细胞显微镜——无需额外培训(这种能力通常被称为零样本迁移)。

将来,SAM 可用于帮助需要在任何图像中查找和分割任何对象的众多领域中的应用程序。对于 AI 研究社区和其他人来说,SAM 可以成为更大的 AI 系统的一个组成部分,用于对世界进行更一般的多模态理解,例如,理解网页的视觉和文本内容。在 AR/VR 领域,SAM 可以根据用户的视线选择对象,然后将其“提升”为 3D。对于内容创作者,SAM 可以改进创意应用,例如提取图像区域以进行拼贴或视频编辑。SAM 还可用于帮助对地球上甚至太空中的自然事件进行科学研究,例如,通过定位动物或物体以在视频中进行研究和跟踪。可能性是广泛的,

通用性

以前,要解决任何类型的分割问题,有两类方法。第一种是交互式分割,允许分割任何类别的对象,但需要一个人通过迭代细化掩码来指导该方法。第二种,自动分割,允许分割提前定义的特定对象类别(例如,猫或椅子),但需要大量的手动注释对象来训练(例如,数千甚至数万个分割猫的例子),连同计算资源和技术专长一起训练分割模型。这两种方法都没有提供通用的、全自动的分割方法。

SAM 是这两类方法的概括。它是一个单一的模型,可以轻松地执行交互式分割和自动分割。该模型的可提示界面允许以灵活的方式使用它,只需为模型设计正确的提示(点击、框、文本等),就可以完成范围广泛的分割任务。此外,SAM 在包含超过 10 亿个掩码(作为该项目的一部分收集)的多样化、高质量数据集上进行训练,这使其能够泛化到新类型的对象和图像,超出其在训练期间观察到的内容。这种概括能力意味着从业者将不再需要收集他们自己的细分数据并为他们的用例微调模型

这些功能使 SAM 能够泛化到新任务和新领域。这种灵活性在图像分割领域尚属首创。

SAM功能描述

(1)允许用户通过单击或通过交互式单击点来分割对象以包含和排除对象。还可以使用边界框提示模型。
(2) 在面对被分割对象的歧义时可以输出多个有效掩码,这是解决现实世界中分割问题的重要且必要的能力。
(3) 可以自动发现并屏蔽图像中的所有对象。
(4) 可以在预计算图像嵌入后实时为任何提示生成分割掩码,允许与模型进行实时交互。

介绍

基础模型是一个很有前途的发展,它可以通过使用“提示”技术对新的数据集和任务执行零样本和少样本学习。

基于基础模型在NLP领域的成功实现,同样的在计算机视觉领域中也开始了基础模型的探索。例如,CLIP和ALIGN使用对比训练来对齐两种模式的图像和文本编码器。设计的文本提示可以对新的视觉概念和数据分布进行零概率泛化。这种编码器还可以与其他模块有效组合,以实现下游任务,例如图像生成。虽然在视觉和语言编码器方面已经取得了很大的进展,但计算机视觉包括超出这个范围的广泛问题,并且对于其中的许多问题,没有丰富的训练数据。

**任务:**目标是建立一个图像分割的基础模型,寻求开发一个提示模型,并使用一个能够实现强大泛化的任务在广泛的数据集上对其进行预训练。有了这个模型就能够使用即时工程解决新数据分布上的一系列下游分割问题。

提出了一个提示分割任务,目标是在给定任何分割提示的情况下返回一个有效的分割掩码。

在这里插入图片描述

提示符只是

评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值