概述
CLIP:contrastive language-image pretraining
利用文本的监督信号训练一个迁移能力特别强的视觉模型
传统的视觉模型,人工标注图像,那么模型只能识别标注数据,迁移能力弱
1. 训练与推理
训练
数据
图像+图像文本作为标签(互联网数据已经标好了)
模型
- Text-encoder:重点不在训练它,直接transformer拿来用,已经海量文本训练好了
- Image-encoder:重点在于训练它,希望image-encoder能够学到图像的真实含义
- 4亿对文本-图像,不是标注的,直接爬取的
训练方法
对比学习,计算image-text相似度,正样本相似度高,负样本相似度低
推理
图搜文任务为例:
图像+模型得到向量,候选文本+模型得到向量,计算相似度,挑选出最终文本
文本的描述质量也会影响效果,比如细粒度,比如某些具体场景的描述
训练策略补充说明
以对比损失,image-text的相似度来进行训练
另一种方式,image预测具体的token,效果要差
2. 最终效果与局限性
CLIP VS Restnet50
- CLIP 在特别具体或者非日常场景的表现一般,比如 minst 数据集,比如稀有花的数据集
- Resnet 不是最强模型,VIT 模型要比 Resnet50 更强,论文中 clip 主要是跟 resnet50 来比,如果要达到 VIT 的效果,可能需要1000倍的数据量
- 目前的参数都是根据 Imagenet 来的,可能泛化也受限于 Imagenet 数据集,因为调参成本太高
3.后续应用
3.1 DALL-E
GAN思想的网络
- 生成器:VQGAN(根据文本生成图像)
1)维护一个码本,这个码本含有大量特征
2)生成过程就是判断一张图片的每个像素点应该生成的特征跟码本里面的哪种特征更像
3)同时还要约束新生成像素点也要基于已经生成的
- 判别器:CLIP(判断根据文本生成的图像与文本之间的相似度是不是高)
形象化的理解 DALL-E
1)类GPT化:输入文本+图像(可以是一个初始的图像,也可以是噪音图像),然后希望生成与文本描述相同的图像
2)用到三种注意力:text、image、text-image
3)官网描述的 text 和 image 的 特征 / token 数量:
其中文本是 256 token,字典大小是 16384
其中图片是 1024 token,字典(码本)大小是 8192
3.2 ActionCLIP
ActionCLIP:A New Paradigm for Video Action Recognition
识别视频中的行为
3.3 CLIP-Event
CLIP-Event:Connecting texts and images with event structures
训练:抽取文本三元组。who do what
推理:就可以推理出图片中的每个人物在干嘛