【大模型】论文解读《 OMG-Seg : Is One Model Good Enough For All Segmentation》

图像分割:目标是根据输入图像输出一组掩码,每个掩码对应一个语义标签。报告了三种不同的分割任务的结果:语义分割 (SS),实例分割 (IS) 和全景分割 (PS)。语义分割任务旨在将图像中的每个像素分配到特定的语义类别,实例分割任务旨在将图像中的每个物体实例分割为单独的掩码,全景分割任务是语义分割和实例分割的统一,包括可数的物体类别和不可数的背景类别。对于这些任务,我们采用了掩码分类架构,其中每个掩码与一个语义标签相关联。

视频分割:目标是获得一个掩码管。每个掩码管包括掩码、类别标签和实例ID。掩码管可以分类为可数的物体类别或不可数的背景类别,物体类别具有唯一的ID。视频分割任务可以根据不同的类别和标签进行分类,包括视频语义分割(VSS),视频实例分割(VIS)和视频对象分割(VOS)。语义分割仅包括背景类别。在训练过程中,采用掩码管分类框架来训练和连接时间维度上的短管。对于视频对象分割,采用类别无关的灌装训练

交互式分割:类似于SAM中的交互式分割同时接受图像和视觉提示作为输入并输出相应的二值图像掩码,在本实验中,为所有不同的任务查询使用共享编码器

开放词汇和多数据分割:在图像和视频分割的基础上进行。在这种设置下,任务的目标不仅限于已知的固定标签机,而是需要对不同数据集中的开放集进行识别。本文做法是使用CLIP文本嵌入作为掩码分类器。为了实现开放词汇识别,在古板部分采用冻结的CLIP视觉模型作为特征提取器

通过组合所有不同的设置,可以使用基于查询的掩码分类框架表示所有的输出分割实体。具体而言,一个对象查询对应一个掩码mi,标签ci,IDdi,根据不同的任务设置,mi,di的格式和范围是不同的。然而,mi,ci,di的格式和范围是相似的,因此,将所有这些任务放入一个共享的编码器和解码器框架中,并对所有分割任务进行共同训练是自然而然的。

因此,将所有这些任务放入一个共享的编码器和解码器框架中,并对所有分割任务进行共同训练是自然而然的,这样做可以使用同一个模型处理所有的分割任务

同一个模型可以处理所有的分割任务的原因在于以下几点:

  1. 共享的编码器:在这个共享的框架中,模型使用共享的编码器来提取图像特征。编码器负责将输入图像转换为高维特征表示,这些特征包含了关于图像内容的信息。由于不同的分割任务可能涉及不同的数据集和标签集,但它们通常共享相似的视觉特征。因此,使用一个共享的编码器可以使模型从不同的任务中学习到通用的特征表示,从而在不同的分割任务中进行共享和重用。
  2. 通用的解码器:在共享的框架中,模型还使用通用的解码器来将编码后的特征映射回像素级的掩码。解码器负责将特征转化为对应的分割结果。尽管不同的任务可能有不同的分割要求,但解码器可以学习到适应不同任务的映射函数。通过共享解码器,模型可以在不同的分割任务中灵活地生成对应的掩码结果。
  3. 共同训练:将所有的分割任务放入同一个模型中进行共同训练,可以使模型在不同任务的训练样本中共享信息和知识。这样一来,模型可以利用不同任务之间的相似性和共性,提高整体的泛化能力和性能。共同训练还可以减少模型的参数和计算成本,提高模型的效率。

像素解码器作为特征适配器,以Mask2Former中的解码器相同,包含多阶段的可变形注意力层,将冻结特征转换为具有相同通道维度的融合特征。在这个过程中,像素解码器通过可变形注意力层对特征进行自适应调整,以更好地适应分割任务的需求。它使用冻结特征作为输入,并通过多个阶段的可变形注意力层将特征进行变换和融合

合并的对象查询,每个对象查询代表一种掩码输出。从功能的角度来看,图像、视频和交互模式代表不同的属性。对于图像,对象查询侧重于对象级别的定位和识别。对于视频,对象查询可能涉及时间一致性,例如同一对象跨越不同帧。对于交互式分割,对象查询被迫定位特定区域。对于图像和视频输入,本文采用对象查询来表示图像掩码或被跟踪的tube掩码。因为两者都需要语义标签,本文称为语义查询。对于交互模式,按照SAM做法,本文采用提示编码器将各种视觉提示编码成与对象查询相同形状的查询。本文成为位置查询。因此,本文可以共享变压器解码器的相同接口

共享的多任务解码器:主要操作是交叉注意力,接收合并的对象查询和图像/视频特征,并输出精炼的对象查询。最终的掩码是通过精炼查询和分辨率特征的点积获得的。对于图像语义级别的任务,采用与Mask2Former相同的过程。

a:遵循Mask2Former的架构,包括一个骨干网络(CLIP视觉编码器)一个像素解码器和一个掩码解码器。不同的部分包括用于图像和视频分割的共享掩码解码器和视觉提示编码器。我们使用两种类型的掩码查询,即语义查询,用于实例/语义掩码或掩码管,以及位置查询,用于编码框或点提示。

b: 掩码解码器的一个解码器层。位置查询跳过了自注意操作,因为它们只受限于图像内容和位置提示

c: 在训练和推理中OMG-seg的前向传递。使用CLIP的文本编码器来表示类别名称并通过计算掩码特征和文本嵌入之间的余弦相似度来对掩码进行分类

  • 24
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值