(ECCV,2022)Mask-CLIP:从CLIP中提取自由密集标签

Extract Free Dense Labels from CLIP

相关资料

代码:https://github.com/chongzhou96/MaskCLIP
论文:https://arxiv.org/abs/2112.01071

摘要

对比语言-图像预训练(CLIP)在开放词汇的零样本图像识别方面取得了显著突破。许多最近的研究利用预训练的CLIP模型进行图像级别分类和操作。在本文中,我们希望检查CLIP在像素级密集预测方面的内在潜力,特别是在语义分割方面。为此,我们展示了通过最小修改,MaskCLIP在没有注释和微调的情况下,在各种数据集上的开放概念中产生了引人注目的分割结果。通过添加伪标记和自训练,MaskCLIP+在很大程度上超越了最先进的感应零样本语义分割方法,例如,在PASCAL VOC/PASCAL Context/COCO Stuff上未见类别的mIoUs从35.6/20.7/30.3提高到86.1/66.7/54.7。我们还测试了MaskCLIP在输入损坏下的鲁棒性,并评估了其区分细粒度对象和新概念的能力。我们的发现表明,MaskCLIP可以作为密集预测任务的新可靠监督源,实现无需注释的分割。源代码在此处可用。

引言

在这里插入图片描述

我们的模型名为MaskCLIP,我们展示了一个可以直接从CLIP的图像编码器中提取密集的补丁级特征,即最后一个注意力层的值特征,而不会破坏视觉-语言关联。用于密集预测的分类权重,本质上是1×1卷积,可以直接从CLIP文本编码器的文本嵌入中获得,而不需要任何刻意的映射。在我们的实证研究中,MaskCLIP在通过mIoU指标测量的定量性能和定性结果方面都产生了合理的预测。此外,MaskCLIP可以基于所有变体的CLIP,包括ResNets和ViTs。我们提供了两种流行的骨干网络之间的并排比较。我们还为MaskCLIP提出了两种掩码细化技术,以进一步提高其性能,即关键平滑提示去噪,两者都不需要训练。具体来说,关键平滑计算不同补丁的关键特征(最后一个注意力层)之间的相似性,这些特征用于平滑预测。提示去噪通过删除图像中不太可能存在的类别的提示,从而减少干扰因素,使预测更加准确。

方法

在这里插入图片描述

Mask-CLIP

如图2(b)所示,与传统的全局平均池化不同,CLIP的图像编码器采用了Transformer风格的多头注意力层,其中全局平均池化的特征作为查询,每个空间位置的特征生成一个键-值对。因此,这一层的输出是对传入特征图的空间加权和,然后是线性层 F ( ⋅ ) F(·) F()
在这里插入图片描述
其中 C C C是一个常数缩放因子, E m b ( ⋅ ) Emb(·) Emb(

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值