Not All Features Matter:Enhancing Few-shot CLIP with Adaptive Prior Refinement

3 篇文章 0 订阅
3 篇文章 0 订阅

APE是ICCV2023的一篇文章,也是我在这个领域里接触的第一篇文章,这里主要做一下记录。

论文链接:2304.01195.pdf (arxiv.org)

代码链接:yangyangyang127/APE: [ICCV 2023] Code for "Not All Features Matter: Enhancing Few-shot CLIP with Adaptive Prior Refinement" (github.com)

概述

对于多模态任务而言,大量数据的获得是耗费人力和物力的,因此few-shot的训练方式一直备受关注。目前已经证实了CLIP模型的超强性能,很多研究人员提出了基于CLIP的检测算法,然而多数都是在研究如何更好地利用CLIP提取出的features,本文则从“Not All Features Matter”的角度进行了新的探索,提出了一个Adaptive Prior rEfinement方法,用于处理特征中的冗余信息,除此之外还提出了无需训练的APE和需要训练的APE-T方法。

相关介绍

基于CLIP的few-shot的图像分类工作已经存在很多,大致可以分为两类——Non-prior Methods和Prior-based Methods。

 如上图所示,图(a)就是前者[CLIP-Adapter],这种方法随机初始化无CLIP先验的可学习模块,并在少量训练中进行优化。这种网络只引入了轻量级的可学习参数,但由于没有为附加模块明确考虑预训练的先验知识,因此其精度有限。图(b)为Prior-based Methods,基于先验的方法(Prior-based Methods)通过从少数镜头数据中提取clip提取的特征构建键值缓存模型,能够以不需要训练的方式进行识别,包括Tip-Adapter和Tip-X。他们可以进一步将缓存模型视为执行良好的初始化,并微调缓存键以获得更好的分类精度。这些基于先验的方法明确地将先验知识注入到训练过程中,但由于缓存大小大且可学习参数多,因此比较麻烦。而作者的想法就是将二者结合起来,提出了一个对the test image, the refined cache model, and the textual representations的三角关系进行探究的APE方法。

模型结构

Prior Refinement of CLIP

这个模块主要是通过提出的两个指标对特征进行去冗余操作,实现对不同的下游任务场景提取出重要的特征通道,从而改善特征质量。

Inter-class Similarity

 如果直接按照上图计算,那么计算成本过大,由于预训练好的CLIP已经能够很好对视觉语言信息进行匹配,因此作者选择使用文本特征替代图像的计算。通过计算得到了特征通道之间的相似度,从而能够选择出相似度较小的一部分特征通道,作为重要信息。

 Inter-class Variance

除了计算Inter-class Similarity作者还引入了 Inter-class Variance用于提出差异度较大的一部分特征通道。

 最后通过调节系数对二者进行调整,构成了文章所提出了Prior Refinement of CLIP。其实,可以看出这个操作和通道注意力存在类似的思想,都是在通道维度上进行信息加强,还有很多其他的工作也是基于了类似的思想,可以作为一个idea用于不同领域,值得借鉴。

Training-free APE

 如上图所示,基于先验优化(PR), APE以无训练的方式探索了视觉语言表征的三边关系。

 Training-required APE-T

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

秋冬晚归客

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值