图文 Contrastive Learning (CLIP) VS Pre-training tasks (ViLT)

Contrastive Learning (CLIP) VS Pre-training tasks (ViLT)

结果展示

图+文找相同,第一列到第四列从左到右依次为:CLIP图分支,CLIP图+文,CNN(Resnet50),
最后一列为文本;(记录)
请添加图片描述

因为看到下面这两篇文章,所以重新回顾了一些经典的文章,拿来做分析;俗话说因果循环,辩证思考;

在Contrastive Learning基础上展开的研究(个人观点)

How Much Can CLIP Benefit Vision-and-Language Tasks?(Shen, Li et al. 2021)

其中关于(Shen, Li et al.2021)的工作,笔者认为:鉴于对比学习的CLIP训练模型结果表现可知,模型已经具备不同模态间的语义对齐能力,也即使用模型视觉分支和文本分支,分别提取得到的不同模态间的嵌入特征已经具有语义一致性;文章未对CLIP模型本身在V&L任务上的表现做出评估,而是将CLIP 插入到特定任务的微调中以及将CLIP 与 V&L预训练相结合并转移到下游任务;
论文指标偏重于模型训练迁移实验结果,对contrastive learning 和 V&L 预训练任务目标间映射变化关系未做假设深入,也评估在视觉语言多模态(图文)预训练任务与图文对比学习之间的关系;但实验结果具备指导意义,对于模型训练指标提升有要求的,是一个相对不错的参考;(Mira-Tableau 2021)

Align before Fuse: Vision and Language Representation Learning with Momentum Distillation(Li, Selvaraju et al. 2021)

文章通过引入对比损失,通过跨模态注意将图像和文本表示在融合前对齐(ALBEF),从而实现更扎实的视觉和文本表示学习,同时本文的方法不要对图像数据进行标注且图像分辨率要求不高。为了更好的对噪声数据进行学习,提出了动量蒸馏,这是一种从动量模型产生的伪目标中学习的自我训练方法。同时文章从互信息最大化的角度对文章中提出的方法进行了理论分析,表明不同的训练任务可以理解为从不同视角对图像-文本对进行描述建模;文章将对别学习训练任务与预训练任务(图文匹配,掩码语言建模,图文对比学习)从理论角度进行了统一,对模型进行了训练;但文章也未充分分析对比学习在V&L等预训练任务上的表现;直接使用动量蒸馏方法,将对比学习任务添加到预训练任务中去,打包到一起,进行V&L多模态间的融合表示;(Mira-Tableau 2021)

鉴于上述文献,这里只放了两个代表性的工作,均未就Contrastive Learning 对图文Representation Learning的共享做分析,因此笔者分别从图文对比学习任务和经典图文预训练任务的模型学习效果角度出发,构建了一个商品图文数据集,并分析了模型的检索召回能力,进一步反映这些任务对图文任务的贡献程度; 希望对后续的研究有所帮助;

对比学习任务(CLIP)(Radford, Kim et al. 2021)

方法介绍

关于这篇文章已经有很多小伙伴做介绍,大家可自行搜索查看,文章主要是基于Contrastive Learning的思路,使用INfoNCE Loss进行文本和图像两种模态间互信息最大化;

在这里插入图片描述

模型推理效果

测试爬取(京东和苏宁网站数据)通过型号,关联相同商品;通过京东图片和标题信息匹配易购商品;

惊人发现(易购家电商品价格,好多低于京东,但销量上惨不忍睹),省钱必备;

大家感受下结果,第一列到第四列从左到右依次为:CLIP图分支,CLIP图+文,CNN(Resnet50),
最后一列为文本,见开篇效果;

在这里插入图片描述

图文预训练任务(ViLT)(Kim, Son et al. 2021)

方法介绍

作者提出的ViLT可以认为是目前最简单的多模态Transformer方法。ViLT使用预训练的ViT来初始化交互的transformer,这样就可以直接利用交互层来处理视觉特征,不需要额外增加一个视觉encoder。文本特征输入部分,将文本看成一个词序列,通过word embedding matrix转化成word embedding,然后和position
embedding进行相加,最后和modal-type embedding进行concate。图像特征输入部分,将图像切块看成一个图像块序列,通过linear projection转化成visual embedding,然后和postion embedding进行相加,最后和modal-type embedding进行concate。
其中word embedding和visual embedding通过可学习的modal-type embedding标志位来区分,其中0标志位表示word embedding部分,1标志位表示visual embedding部分。word embedding和visual embedding分别都嵌入了一个额外的可学习[class] embedding,方便和下游任务对接。

在这里插入图片描述

模型推理效果

测试爬取(京东和苏宁网站数据)通过型号,关联相同商品;通过京东图片和标题信息匹配易购商品;(注意这里虽然为单塔结构,但是在嵌入特征提取是,也对文本嵌入特征和图像嵌入特征进行区分);结果展示同上;(别问,问就是笔者比较懒);
在这里插入图片描述

对比学习任务与与训练任务孰强孰弱?

测试数据&如何测试

关于这个问题,前面提到过,通过构建2万个不同手机SKU的商品底库,通过京东同款手机商品(标题+图片)[约300SKU]查找;

对比结果

对比学习任务模型效果与预训练任务模型训练Recall指标,召回结果如下,横坐标值为召回topN;
在这里插入图片描述

讲到这里,感觉图文对比学习对图文任务的贡献要远远高于基于预训练任务对图文任务的贡献;但是这个观点占不占的住脚,还需要一个更为客观标准的评价;因为,大家很容易提出一下这些问题:

  • 模型训练是否充分?(笔者为了做这个实验总共爬取了约50万+的电商数据)

  • 为什么非CLIP和VILT对比;(因为都不需要检测框,实验都达到较高的水平,对比测试方便)

  • 训练是否充分(这么大数据集不训练充分,感觉对不住,爬数据花费的时间和精力呀);

    当然,这仅仅是我说的,在多模态的道路上未完,待续……

参考文献

Kim, W., B. Son and I. Kim (2021). “ViLT: Vision-and-Language Transformer
Without Convolution or Region Supervision.”

Li, J., R. R. Selvaraju, A. D. Gotmare, S. R. Joty, C. Xiong and S. J. A. Hoi
(2021). “Align before Fuse: Vision and Language Representation Learning with
Momentum Distillation.” abs/2107.07651.

Mira-Tableau. (2021). “CLIP在V&L中的应用-How Much Can CLIP Benefit
Vision-and-Language Tasks.” from
https://blog.csdn.net/xiaoxiyang1990/article/details/118995627.

Mira-Tableau. (2021). “互信息最大化[视角统一]:Align before Fuse: Vision and
Language Representation Learning with Momentum Distillation.” from
https://blog.csdn.net/xiaoxiyang1990/article/details/119039898.

Radford, A., J. W. Kim, C. Hallacy, A. Ramesh, G. Goh, S. Agarwal, G. Sastry, A.
Askell, P. Mishkin and J. Clark (2021). “Learning Transferable Visual Models
From Natural Language Supervision.”

Shen, S., L. H. Li, H. Tan, M. Bansal, A. Rohrbach, K. W. Chang, Z. Yao and K.
Keutzer (2021). “How Much Can CLIP Benefit Vision-and-Language Tasks?”.

  • 4
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Mira-Tableau

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值