CLIP——多模态

最新推荐文章于 2024-06-07 13:36:44 发布

weixin_44828962

最新推荐文章于 2024-06-07 13:36:44 发布

阅读量313

点赞数

文章标签：深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44828962/article/details/128780641

版权

CLIP

Learning Transferable Visual Models From Natural Language Supervision 2021

contribution

使用自然语言作为监督信息，训练一个迁移效果很好的视觉模型，摆脱固定类别标签的限制（categorical label）
学习到的预训练模型可以直接在下游任务做zero-shot推理
对30多个数据集、多种不同下游任务上进行测试来评估性能，能达到和有监督的baseline方法差不多的性能

Method

预训练

模型输入图片文字对，通过encoder得到文本图像特征，每个training batch里有n个图片-文本对，然后在这些特征上做对比学习，特征矩阵里对角线上的都是正样本，矩阵中非对角线上的元素都是负样本。

推理

预训练后只得到文本和图片的特征，没有分类头。作者利用自然语言的方法，prompt template。把类别标签转换为句子。将图片的特征和不同的文本特征算余弦相似性，选最相似的那个文本特征对应的句子，从而完成了分类任务。彻底摆脱了categorical label的限制。

prompt

问题： 歧义、distribution gap（训练输入句子、推理是单词）
prompt是在做微调或者直接做推理时的一种方法，起到的是一个提示的作用，也就是文本的引导作用。
prompt engineer 利用这个模板（如：“A photo of a {label}.”）把单词变成一个句子
prompt ensembling 使用多个模版集成zero shot classifiers

training

dataset：WIT 400 million (image, text) pairs
image encoder：a series of 5 ResNets and 3 Vision Transformers
text encoder：transformer
details：32 epoches，adam ，基于grid searches，random search和manual tuning调整超参

weixin_44828962

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
CLIP——多模态

多模态
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。