图像分割:目标是根据输入图像输出一组掩码,每个掩码对应一个语义标签。报告了三种不同的分割任务的结果:语义分割 (SS),实例分割 (IS) 和全景分割 (PS)。语义分割任务旨在将图像中的每个像素分配到特定的语义类别,实例分割任务旨在将图像中的每个物体实例分割为单独的掩码,全景分割任务是语义分割和实例分割的统一,包括可数的物体类别和不可数的背景类别。对于这些任务,我们采用了掩码分类架构,其中每个掩码与一个语义标签相关联。
视频分割:目标是获得一个掩码管。每个掩码管包括掩码、类别标签和实例ID。掩码管可以分类为可数的物体类别或不可数的背景类别,物体类别具有唯一的ID。视频分割任务可以根据不同的类别和标签进行分类,包括视频语义分割(VSS),视频实例分割(VIS)和视频对象分割(VOS)。语义分割仅包括背景类别。在训练过程中,采用掩码管分类框架来训练和连接时间维度上的短管。对于视频对象分割,采用类别无关的灌装训练
交互式分割:类似于SAM中的交互式分割同时接受图像和视觉提示作为输入并输出相应的二值图像掩码,在本实验中,为所有不同的任务查询使用共享编码器
开放词汇和多数据分割:在图像和视频分割的基础上进行。在这种设置下,任务的目标不仅限于已知的固定标签机,而是需要对不同数据集中的开放集进行识别。本文做法是使用CLIP文本嵌入作为掩码分类器。为了实现开放词汇识别,在古板部分采用冻结的CLIP视觉模型作为特征提取器
通过组合所有不同的设置&#