读论文-OVSeg-基于遮罩自适应CLIP的开放词汇语义分割-Open-vicabulr semantic segmentation with mask-adaptived CLIP

计算机视觉-Archer

已于 2023-01-04 16:07:26 修改

阅读量750

点赞数

分类专栏：读论文（SOD-COD-图像分割-Diffusion）文章标签：深度学习计算机视觉人工智能

于 2022-12-23 16:50:01 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zjc910997316/article/details/128419536

版权

读论文（SOD-COD-图像分割-Diffusion）专栏收录该内容

37 篇文章 36 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

OPEN-VOCABULARY SEMANTIC SEGMENTATION WITH MASK-ADAPTED CLIP
基于MASK-ADAPTED剪辑的开放词汇语义分割

摘要

Open-vocabulary semantic segmentation aims to segment an image into semantic regions according to text descriptions, which may not have been seen during training.
Recent two-stage methods first generate class-agnostic mask proposals and then leverage pre-trained vision-language models, e.g., CLIP, to classify masked regions.
We identify the performance bottleneck of this paradigm to be the pre-trained CLIP model, since it does not perform well on masked images.
To address this, we propose to finetune CLIP on a collection of masked image regions and their corresponding text descripti

了解本专栏

超级会员免费看

计算机视觉-Archer

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
读论文-OVSeg-基于遮罩自适应CLIP的开放词汇语义分割-Open-vicabulr semantic segmentation with mask-adaptived CLIP

特别是，当在COCO上进行培训并在ADE20K-150上进行评估时，我们的最佳模型实现了29.6%的mIoU，比之前的最先进水平提高了+8.5%。Cheng等人，2021），但现代语义切分模型主要是用预定义的类别进行训练，未能推广到看不见的类。与具有固定类的更精确和手动注释的分割标签（例如，COCO Stuff）相比，我们发现我们的嘈杂但多样的数据集可以更好地保留CLIP的泛化能力。我们通过挖掘现有的图像字幕数据集（例如，COCO字幕）收集训练数据，使用CLIP将掩蔽的图像区域与图像字幕中的名词相匹配。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

计算机视觉-Archer 图像分割没有团队的同学可加群

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。