CLIP论文

CLIP

提出背景:

 之前的工作都是在固定的,已经确定好的类别上进行训练,若想在分类的类别上增加一类则需要网络进行重新的训练。

本文方法:

在这里插入图片描述
将图片输入进图片编码器(Res50或ViT)得到图片特征,将文本输入进文本编码器得到文本特征;通过使用对比学习方法,每个样本对为正样本,不是一对的为负样本。即对角线上的元素为正样本,除对角线的样本均为负样本。
在这里插入图片描述
在推理过程中,拿到图片的特征去和所有的文本特征计算余弦相似度,图片和文本中哪个最相似,则分为哪个类别,完成分类任务。

在这里插入图片描述

其中I的维度为(batch_size,高,宽,通道数),T的维度为(batch_size,文本长度)
将I T输入进对应的编码器encoder中得到特征

训练时的track

  1. temperature对模型的影响很大,但调不动,所以训练时让模型自行学习了。
  2. 在训练的时候文本部分都是句子,但在推理时给的类别都是单词,所以给个prompt,将单词变成一句话再输入进编码器。
  3. 泛化性能差,若推理的图片与训练集中4亿个图片差距很大的话,还是无法进行分类。比如mnist数据集就不存在在训练集中,所以表现效果差。
  4. 在一些情况下,CLIP的few-shot效果比zero-shot还差,若只给了少量的图片做finetune,那还不如不给。

本博客参考b站沐神论文精读系列中朱毅大神的CLIP论文讲解

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值