CLIP笔记|沐神讲解

bomagic

于 2024-07-20 17:27:17 发布

阅读量394

点赞数 12

文章标签：笔记人工智能图像处理自动化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_52002028/article/details/140574533

版权

CLIP：Learning Transferable Visual Models From Natural Language Supervision

2021年2月底提出，方法很简单，效果很好。

预训练：

数据集：4亿个图片-文本配对的数据集。命名为WIT(Web ImageText)，数据清理地非常好。

使用对比学习：是一种无监督学习。

输入：图片-文本对

分别进入Encoder，生成特征

特征形成如图的特征矩阵

把图中的对角线（即图片和文本配对的情况）作为正样本，其余（非对角线位置，即图片和文本不配对）的作为负样本，进行对比学习。

推理：

以下游任务是ImageNet分类为例，是用待识别图片给到图片编码器，再去和ImageNet的1000个分类词做相关性匹配，把相关性最大的词挑出来，即完成分类。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Prompt template

Clip这篇论文后面提出了prompt engineering和prompt ensemble两种方式来提高模型的准确率。

为什么要做：

Prompt的多义性
预训练时基本都是一个句子，很少是一个单词，可如果做推理的时候，输入只是单词，抽取出来的特征可能就不好

CLIP的解决方案：Prompt template：“A photo of a {label}”

使用了这个template后，准确度提升了1.3%

ensmble：

混精度计算（Mixed-precision）在涉及Transformer的论文中经常被使用。

有很多工程上的优化才能在这么大的数据集上训练起来。

Linear Probe，冻住主体，抽特征，只微调分类头

Clip的有趣应用:

生成图
物体分割和检测
视频检索（可以做OCR了）
。。。

因为迁移性好，就可以摆脱基础类的限制

论文共48页，篇幅非常长，12个作者全部来自openai

之前的那些方法没有这么大的数据集，没有这么多的算力，没有这么大的模型，没有这么好的自监督训练的方式，所以大家的效果都不好（特别是zero-shot）

**Mahajan et al.(2018)**搜集了Ins的图片+标签来作为数据集。【给了CLIP启发】

之前的这些方法，和借助NLP去学习图像表征的方法，最大的区别在规模（数据的规模和模型的规模）

大力出奇迹！

用自然语言信号来训练视觉模型，好处非常多

你不需要再去标注这些数据了（这个过程很复杂），现在只需要去网上下载图片文字的配对，别的都不需要做，数据的规模很容易就变大。而且，因为监督信号是文本，比起N选1的标签，模型输入输出的自由度会大很多。
由于训练的时候把图片和文字绑到了一起，所以学到的是一个多模态的特征，而不只是一个视觉特征。和语言联系在一起后，就很容易做zero-shot的迁移学习了。但如果只是做一种单模态的自监督学习的话，你都只能学到视觉的特征，而无法和自然语言联系到一起，这样还是很难去做zero-shot的迁移。

由于没有符合OpenAI要求的大数据集，选择自己做一个，这个新的大数据集不光带来了CLIP，还有DallE

CLIP的不足和局限性：

1.文章很多情况下是和res50作比较，但是在大多情况下res50根本不是sota。CLIP性能虽强，但是还没到不可一世，比Sota差，要是通过扩大模型规模来弥补十几个点的差距，预估增加1000x

2.在某些数据集如细分类、数物体等任务，性能不如res50。在很多情况下CLIP的zero-shot性能并不好。

3.如果做推理的数据离训练数据相差很远，那么泛化性能也会很差，如MNIST，准确率才88%

4.得让image-text对应。后续可以考虑再加入图像题目生成的模型，将该生成式目标函数与对比学习目标函数结合。

5.对数据利用并不是很高校，数据量太多了，32个epoch*4亿个样本。

6.对下游数据集反复做测试，无形之中带入了偏见。选取的27个数据集并不具有代表性。

7.OPENAI经常说的局限性：从网上爬的数据没有经过过滤和清洗，导致模型可能带有性别、肤色等的偏见。

8.有些情况下few-shot性能不如zero-shot，耐人寻味。后续研究怎么才能让CLIP无论在few-shot还是zero-shot都做的很好。

clip的最大的贡献：打破了固定种类标签的范式。

在这里插入图片描述

clip的最大的贡献：打破了固定种类标签的范式。

这篇文章的工作质量很高：

新意度,有效性,问题大小:三个维度都是100分：100x100x100

关注

12
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
CLIP笔记|沐神讲解

这篇文章介绍了2021年提出的CLIP这篇工作。
复制链接

扫一扫

bomagic CSDN认证博客专家 CSDN认证企业博客

码龄4年

16: 原创

117万+: 周排名

20万+: 总排名

4万+: 访问

: 等级

345: 积分

62: 粉丝

112: 获赞

21: 评论

184: 收藏

私信

关注

热门文章

分类专栏

实习日报

最新评论

GPT系列文章
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/619176331。
html中使用img标签图片无法正常显示
mALUOlksj: 谢谢你呜呜
AI-note1-预训练模型与分词器
CSDN-Ada助手: 恭喜您撰写了第12篇博客，题为“AI-note1-预训练模型与分词器”。阅读您的文章后，我对AI预训练模型和分词器有了更深入的了解，感谢您分享这些有趣而有用的知识。您的写作风格清晰明了，对于复杂的概念也能以简洁的语言进行解释，这让我能够更轻松地理解这些技术。在下一步的创作中，我期待您能够进一步探讨预训练模型和分词器在不同应用领域的实际应用案例，以及它们的优缺点和挑战。谢谢您的辛勤努力，期待您的后续作品！
html中使用img标签图片无法正常显示
2301_76312237: 为什么我的还是没有显示
html中使用img标签图片无法正常显示
jia_Camellia: 非常感谢！修改好多次都没显示，居然是要加个“.”

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。