METER(Multimodal End-to-end TransformerER)

这是一篇关于视觉语言转换的实证研究,证明视觉编码器和文本编码器用哪个效果更好,证明了合并融合和共同融合哪种融合方式效果更好。文章工作量较大,进行了大量的实验论证,由此挑选出效果最佳的模型组合。但并没有针对某一问题提出解决方案,简言之个人觉得创新性不强,不太明白为什么能够刊在CVPR。(但能刊在CVPR肯定是有过人之处,小女子不才,可能没领会到深处,并无不敬之心,望海涵!)

论文题目(Title):An Empirical Study of Training End-to-End Vision-and-Language Transformers

研究问题(Question):研究如何以端到端方式设计和预训练一个完全基于变压器的VL模型。

研究动机(Motivation):视觉-语言(VL)预训练已被证明在各种视觉-语言下游任务中是非常有效的。尽管最近的研究表明,完全基于变压器的VL模型比以前基于区域特征的方法更有效,但它们在下游任务中的性能往往会显著下降。因此,寻找一个较为合适的VL模型有重要意义。

主要贡献(Contribution):作者通过实验发现

1.视觉转换器(ViT)在VLP中比语言转换器发挥着更重要的作用,而单纯的视觉转换器或语言转换器在VL任务中的表现并不能很好地反映它在VL任务中的表现。

2.交叉注意的加入有利于多模态融合,这比单独使用自我注意的下游性能更好。

3.在公平的比较设置下,仅编码器的VLP模型在VQA和zero-shot图像-文本检索任务中比编码器-解码器模型表现得更好。

4.在VLP中添加掩模图像建模损失不会在作者的设置中提高下游任务的性能。

研究思路(Idea):主要通过实验对比选择优秀的编码器

研究方法(Method):

研究过程(Process):

        1.数据集(Dataset) 

预训练阶段数据集有:COCO, Conceptual Captions, SBU Captions, and Visual Genome

        2.评估指标(Evaluation):准确度(ACC)

        3.实验结果(Result):实验太多,整体而言分别选择了较好的图像编码器、文本编码器、融合方式、编码器或编码-解码器的选择,预训练目标等。

总结(Conclusion):

Vision 端用 vision 的 encoder 模型(如 CLIP-VIT, Swin), language 端用语言的 encoder 模型 (如 Bert, RoBERTa 等等),编码结束之后用 merged attention 或者 coattention 等方法进行 multimodal fusion, 即双模型的融合,使得最终的 vector 即包含图片信息又包含语意信息。通过实验,作者们得出了如下的结论:

(1) Vision transformer (VIT) 在模型中所起到的作用要高于 language transformer,另外 VIT 在 Imagenet 中的 performance 并不能代表在 vision-language 中的 performance,会出现水土不服,需要重现训练。

(2) 使用 cross-attention 有利于图像和文字信息的融合,比单纯使用 self-attention 效果要好,想来也是有道理的。

(3) 在 VQA (visual question answering 即看图回答问题) 和 image-text retrieval 这两个任务中,我们的 visual-language pretraining 时,只用 encoder 的效果好于 encoder-decoder。

(4) Visual-language pretraining 时,masked image modeling 并不是一个很重要的点。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值