clip系列改进Lseg、 group ViT、ViLD、Glip、CLIPasso、CLIP4Clip、ActionCLIP

Lseg

在这里插入图片描述
clip+分割
在clip后面加一个分割head,然后用分割数据集有监督训练。textencoder使用clip,frozen住。

group ViT

在这里插入图片描述

与Lseg不同,借鉴了clip做了真正的无监督学习。
具体的通过group block来做的。使用学习的N个group token(可以理解为聚类中心数量)与图像做attention。分别加入两次。一个为64个,一次为8个(粗聚类->精聚类),最后pooling后与文本做对比学习。
结果发现分割已经做的很好了。分类结果还差一些。

ViLD

在这里插入图片描述
clip+目标检测
对N个proposal与text(open 类别)分别提特征,然后计算相似度。
然后额外增加一个分支,对M个proposal的图片(N里面取topM)使用clip的Image encoder提特征,与目标检测的图片特征做知识蒸馏。

Glip

在这里插入图片描述
统一了检测和grounding(类似VQA),又使用了伪标签,引入了非常多的图像文本对,用于预训练,效果非常好。
具体做法和clip很像,文本分支,和图像分支算距离,然后求alignment loss(相当于分类分支),再加一个定位loss。
然后加入了一个文本图像的融合模块(使用cross-attention),整个框架和ViLD-text很像。

CLIPasso

在这里插入图片描述
CLIP+简笔画

  • 简笔画使用贝塞尔曲线建模,每个曲线由点数控制。
  • 对学习的曲线,提取特征和clip特征求loss。加入了底层的纹理特征,所以同时对底层的特征求loss
  • 曲线的初始化特别重要。作者用ViT-B/32提取self-attention的特征抓取关键点,初始化曲线。该曲线已经接近最后的结果了!!!。
    可以对曲线的点数控制生产不同程度的简笔画。

CLIP4Clip

在这里插入图片描述
Clip+视频检索

  • 对视频的每一帧通过vit提特征,用了3种不同的方式与文本特征计算相似度
  • mean pooling、transformer、text+文本一起atten,然后fc出相似度
  • 实验发现,基本mean pooling竟然最好,或者比transformer稍微差一点点。

ActionCLIP

在这里插入图片描述
在这里插入图片描述

clip+动作识别

  • 有监督的训练,gt是相似度矩阵,因为是有监督,此相似度矩阵非对角也可能有值,如不同的帧都是跑步,所以loss使用KL散度
  • text encoder对label加了一个prompt改成句子表达
  • video encoder。先加了时序的pos,然后加入了TSM模块,最后类似clip4clip处理多帧信息。
  • 结果发现temporal Transformer比Mpooling结果好一点。原因是动作识别数据集更大一些。
    参考:

【CLIP 改进工作串讲(下)【论文精读·42】】 https://www.bilibili.com/video/BV1gg411U7n4/?share_source=copy_web&vd_source=a641d5fd36f9ab534df883ec3f1ed48f
https://distill.pub/2021/multimodal-neurons/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

yang_daxia

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值