CLIP在V&L中的应用-How Much Can CLIP Beneﬁt Vision-and-Language Tasks

最新推荐文章于 2024-06-10 21:44:43 发布

Mira-Tableau

最新推荐文章于 2024-06-10 21:44:43 发布

阅读量822

点赞数

分类专栏：多模态深度学习文章标签：人工智能计算机视觉深度学习机器学习

本文链接：https://blog.csdn.net/xiaoxiyang1990/article/details/118995627

版权

多模态同时被 2 个专栏收录

4 篇文章 2 订阅

订阅专栏

深度学习

3 篇文章 0 订阅

订阅专栏

How Much Can CLIP Beneﬁt Vision-and-Language Tasks

代码:https://github.com/clip-vil/CLIP-ViL

这里提取了文章的主要核心观点，也即基于CLIP的自监督任务，在V&L也不错的表现；

笔者认为，文章未对CLIP模型本身在V&L任务上的表现做出评估，基于对比学习的CLIP训练模型结果，已经具备不同模态间的语义对齐能力，也即视觉分支的嵌入特征与文本分支的嵌入特征已经具有语义一致性；个人观点:文章的创新偏重于模型训练迁移，contrastive learning 和 V&L 预训练任务目标间映射变化关系未做假设深入。

大多数现有的视觉和语言 (V&L)模型依赖于预训练的视觉编码器以及手动标注数据集相比来感知视觉世界，未充分利用网络上大量的图文对或者其它数据。然而，已经观察到大规模预训练通常可以产生更好的泛化性能，例如，在大量图像-字幕对上训练的 CLIP（对比语言-图像预训练）表现出很强的零镜头各种视觉任务的能力。为了进一步研究CLIP 带来的优势，本文在两种典型场景下使用 CLIP 作为各种 V&L 模型中的视觉编码器：

1）将 CLIP 插入到特定任务的微调中；

2) 将 CLIP 与 V&L 预训练相结合并转移到下游任务。

实验表明CLIP 显着优于使用域内注释数据训练的广泛使用的视觉编码器，例如BottomUp-TopDown。作者在各种 V&L 任务上取得了有竞争力或更好的结果，同时在视觉问答、视觉蕴涵和 V&L 导航任务上建立了新的最先进的结果。

CLIP模型(Learning Transferable Visual Models From Natural Language Supervision)

基于Contrastive Learning的思路，使用INfoNCE Loss进行文本和图像两种模态间互信息最大化；

在这里插入图片描述

将 CLIP 插入到特定任务的微调中；

Visual Encoders 介绍

在这里插入图片描述

从左到右依次为：基于区域的方法在对象上进行训练检测数据；对于基于网格的方法（图像分类或者检测任务）；前两者均需要进行标注，而CLIP
只需要对齐的文本。

CLIP-ViL(CLIP-Visual Encoder) 引入

将CLIP（称为CLIP-ViL）插入到特定任务(也即CLIP视觉分支）：视觉问答、图片说明、视觉语言导航三个任务中；视觉问答的结果表现，其它请转到论文查看；
在这里插入图片描述

从上表可以看到:CLIP-Res 模型优于 ImageNet ResNet50 (+9.1 /+1.5 ) 和 ResNet101(+9.2 / +1.5）。甚至超越了强内域来自 BUTD 的基于区域的特征。作为模型大小在 CLIP-ViL 中增长，结果也有所改善； CLIP-Res50x4
实现了最佳性能,但是，CLIP-ViT-B 变体导致与其他产品相比，性能明显更差；

CLIP-ViL-Pretraining(CLIP-Vilp)

CLiP-ViLp 假设文本段 T 和图像 I 作为输入。与 BERT
一样，文本被嵌入为一系列词嵌入向量，图像被嵌入为一组视觉向量；
然后将文本和视觉嵌入特征进行拼接，并由单个 Transformer 处理。同时
CLiP-ViL-Pretraining 中，CLIP 主干在 V&L 预训练和特定任务微调期间均进行训练；
在这里插入图片描述
从上表可知，基于CLIP-VILp模型架构训练的模型 CLIP-Res50 优于大多数其它模型；

结论

作者认为利用 CLIP V&L 模型的视觉编码器是一个不错的选择尝试。文中尝试了两种方法：第一种，我们直接将 CLIP 插入特定任务的微调中；其次，我们将 CLIP 与 V&L 预训练相结合，然后对下游任务进行微调。针对不同 V&L 任务的各种大量实验表明，与强基线相比，CLIP-ViL 和 CLIP-ViLp 可以实现具有竞争力或更好的性能。

这里要注意的是，第二种实现作者在论文中并未过多讨论CLIP-VILp模型训练实验的具体细节，具体可查看作者开源代码进行思路验证；

Mira-Tableau

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
CLIP在V&L中的应用-How Much Can CLIP Beneﬁt Vision-and-Language Tasks

How Much Can CLIP Beneﬁt Vision-and-Language Tasks这里提取了文章的主要核心观点，也即基于CLIP的自监督任务，在V&L也不错的表现；笔者认为，文章未对CLIP模型本身在V&L任务上的表现做出评估，基于对比学习的CLIP训练模型结果，已经具备不同模态间的语义对齐能力，也即视觉分支的嵌入特征与文本分支的嵌入特征已经具有语义一致性；文章的创新偏重于模型训练迁移技巧，模型上创新不足，未充分考虑contrastive learning 和 V&a
复制链接

扫一扫