【大模型】论文解读《 OMG-Seg : Is One Model Good Enough For All Segmentation》

最新推荐文章于 2025-05-29 16:31:56 发布

刺猬240

最新推荐文章于 2025-05-29 16:31:56 发布

阅读量1.2k

点赞数 24

文章标签：人工智能计算机视觉深度学习图像处理 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_63219670/article/details/138807308

版权

图像分割：目标是根据输入图像输出一组掩码，每个掩码对应一个语义标签。报告了三种不同的分割任务的结果：语义分割 (SS)，实例分割 (IS) 和全景分割 (PS)。语义分割任务旨在将图像中的每个像素分配到特定的语义类别，实例分割任务旨在将图像中的每个物体实例分割为单独的掩码，全景分割任务是语义分割和实例分割的统一，包括可数的物体类别和不可数的背景类别。对于这些任务，我们采用了掩码分类架构，其中每个掩码与一个语义标签相关联。

视频分割：目标是获得一个掩码管。每个掩码管包括掩码、类别标签和实例ID。掩码管可以分类为可数的物体类别或不可数的背景类别，物体类别具有唯一的ID。视频分割任务可以根据不同的类别和标签进行分类，包括视频语义分割（VSS），视频实例分割（VIS）和视频对象分割（VOS）。语义分割仅包括背景类别。在训练过程中，采用掩码管分类框架来训练和连接时间维度上的短管。对于视频对象分割，采用类别无关的灌装训练

交互式分割：类似于SAM中的交互式分割同时接受图像和视觉提示作为输入并输出相应的二值图像掩码，在本实验中，为所有不同的任务查询使用共享编码器

开放词汇和多数据分割：在图像和视频分割的基础上进行。在这种设置下，任务的目标不仅限于已知的固定标签机，而是需要对不同数据集中的开放集进行识别。本文做法是使用CLIP文本嵌入作为掩码分类器。为了实现开放词汇识别，在古板部分采用冻结的CLIP视觉模型作为特征提取器

通过组合所有不同的设置&#

最低0.47元/天解锁文章

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。