（1）CLIP

简简单单的貔貅

于 2024-09-16 00:32:45 发布

阅读量191

点赞数 2

分类专栏：对比学习与多模态文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhuzaiyebol/article/details/142290434

版权

对比学习与多模态专栏收录该内容

1 篇文章 0 订阅

订阅专栏

CLIP

概述
1. 训练与推理
2. 最终效果与局限性
3.后续应用

概述

CLIP：contrastive language-image pretraining
利用文本的监督信号训练一个迁移能力特别强的视觉模型
传统的视觉模型，人工标注图像，那么模型只能识别标注数据，迁移能力弱

1. 训练与推理

训练

数据
图像+图像文本作为标签（互联网数据已经标好了）

模型

Text-encoder：重点不在训练它，直接transformer拿来用，已经海量文本训练好了
Image-encoder：重点在于训练它，希望image-encoder能够学到图像的真实含义
4亿对文本-图像，不是标注的，直接爬取的

训练方法
对比学习，计算image-text相似度，正样本相似度高，负样本相似度低

推理
图搜文任务为例：
图像+模型得到向量，候选文本+模型得到向量，计算相似度，挑选出最终文本
文本的描述质量也会影响效果，比如细粒度，比如某些具体场景的描述

训练策略补充说明
以对比损失，image-text的相似度来进行训练
另一种方式，image预测具体的token，效果要差

2. 最终效果与局限性

CLIP VS Restnet50

CLIP 在特别具体或者非日常场景的表现一般，比如 minst 数据集，比如稀有花的数据集
Resnet 不是最强模型，VIT 模型要比 Resnet50 更强，论文中 clip 主要是跟 resnet50 来比，如果要达到 VIT 的效果，可能需要1000倍的数据量
目前的参数都是根据 Imagenet 来的，可能泛化也受限于 Imagenet 数据集，因为调参成本太高

3.后续应用

3.1 DALL-E

GAN思想的网络

生成器：VQGAN（根据文本生成图像）
1）维护一个码本，这个码本含有大量特征
2）生成过程就是判断一张图片的每个像素点应该生成的特征跟码本里面的哪种特征更像
3）同时还要约束新生成像素点也要基于已经生成的
判别器：CLIP（判断根据文本生成的图像与文本之间的相似度是不是高）

形象化的理解 DALL-E
1）类GPT化：输入文本+图像（可以是一个初始的图像，也可以是噪音图像），然后希望生成与文本描述相同的图像
2）用到三种注意力：text、image、text-image
3）官网描述的 text 和 image 的特征 / token 数量：
其中文本是 256 token，字典大小是 16384
其中图片是 1024 token，字典（码本）大小是 8192

3.2 ActionCLIP

ActionCLIP：A New Paradigm for Video Action Recognition
识别视频中的行为

3.3 CLIP-Event

CLIP-Event：Connecting texts and images with event structures
训练：抽取文本三元组。who do what
推理：就可以推理出图片中的每个人物在干嘛

简简单单的貔貅

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。