跨模态神经搜索实践VCED CLIP简介

最新推荐文章于 2024-04-22 13:42:21 发布

includeSteven

最新推荐文章于 2024-04-22 13:42:21 发布

阅读量885

点赞数

分类专栏：深度学习实战深度学习文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_47802917/article/details/127926900

版权

1. CLIP简介

1.1 CLIP是什么

CLIP（Contrastive Language-Image Pretraining）模型将原有的图像标签替换为图像的文本描述信息，来监督视觉任务的训练，在下游任务中得到了较好的zero-shot结果。

该模型将图像分类问题转换为图文匹配问题，首先针对图片构造text prompt，并使用CLIP模的text encoder获得文本编码向量，之后将图片通过image encoder获得图像编码向量。

对于图片，计算它与所有text prompt之间的距离（图像编码向量与文本编码向量的余弦相似度/点积），选择距离最近的text prompt标签作为图片的标签。

除此之外，CLIP模型可广泛应用到图像检索、视频理解、图像生成等其它领域。

1.2 CLIP原理

CLIP将语言信息和图像信息联合训练，实现了在下游任务上zero-shot（Zero-shot learning指没有当前类别的训练样本的情况下，让模型学习到一个映射关系可以将样本映射到原有的向量空间，再通过距离判断当前样本可能属于哪一个类别）的能力。

训练过程

具体而言，即收集N个图像和文本对，将其按照编码次序排列，可以得到一个N*N矩阵T，训练需要使得对角线上的元素值尽可能大，其余部分值尽可能小，矩阵中的T(i, j)表示第i个文本与第j个文本图像之间的语义相似度。

zero-shot过程

根据上下文语义建立prompt模板，将分类标签映射到prompt模板得到文本集合&#

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
跨模态神经搜索实践VCED CLIP简介

多模态和跨模态应用；CLIP；Jina；多模态和跨模态应用挑战，解决方案。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。