这是一篇关于视觉语言转换的实证研究,证明视觉编码器和文本编码器用哪个效果更好,证明了合并融合和共同融合哪种融合方式效果更好。文章工作量较大,进行了大量的实验论证,由此挑选出效果最佳的模型组合。但并没有针对某一问题提出解决方案,简言之个人觉得创新性不强,不太明白为什么能够刊在CVPR。(但能刊在CVPR肯定是有过人之处,小女子不才,可能没领会到深处,并无不敬之心,望海涵!)
论文题目(Title):An Empirical Study of Training End-to-End Vision-and-Language Transformers
研究问题(Question):研究如何以端到端方式设计和预训练一个完全基于变压器的VL模型。
研究动机(Motivation):视觉-语言(VL)预训练已被证明在各种视觉-语言下游任务中是非常有效的。尽管最近的研究表明,完全基于变压器的VL模型比以前基于区域特征的方法更有效,但它们在下游任务中的性能往往会显著下降。因此,寻找一个较为合适的VL模型有重要意义。
主要贡献(Contribution):作者通过实验发现
1.视觉转换器(ViT)在VLP中比语言转换器发挥着更重要的作用,而单纯的视觉转换器或语言转换器在VL任务中的表现并不能很好地反映它在VL任务中的表现。
2.交叉注意的加入有利于多模态融合,这比单独使用自我注意的下游性能更好。
3.在公平的比较设置下,仅编码器的VLP模型在VQA和zero-shot图像-文本检索任务中比编码器-解码器模型表现得更好。
4.在VLP中添加掩模图像建模损失不会在作者的设置中提高下游任务的性能。
研究思路(Idea):主要通过实验对比选择优秀的编码器
研究方法(Method):
研究过程(Process):
1.数据集(Dataset)
预训练阶段数据集有:COCO, Conceptual Captions, SBU Captions, and Visual Genome
2.评估指标(Evaluation):准确度(ACC)
3.实验结果(Result):实验太多,整体而言分别选择了较好的图像编码器、文本编码器、融合方式、编码器或编码-解码器的选择,预训练目标等。
总结(Conclusion):
Vision 端用 vision 的 encoder 模型(如 CLIP-VIT, Swin), language 端用语言的 encoder 模型 (如 Bert, RoBERTa 等等),编码结束之后用 merged attention 或者 coattention 等方法进行 multimodal fusion, 即双模型的融合,使得最终的 vector 即包含图片信息又包含语意信息。通过实验,作者们得出了如下的结论:
(1) Vision transformer (VIT) 在模型中所起到的作用要高于 language transformer,另外 VIT 在 Imagenet 中的 performance 并不能代表在 vision-language 中的 performance,会出现水土不服,需要重现训练。
(2) 使用 cross-attention 有利于图像和文字信息的融合,比单纯使用 self-attention 效果要好,想来也是有道理的。
(3) 在 VQA (visual question answering 即看图回答问题) 和 image-text retrieval 这两个任务中,我们的 visual-language pretraining 时,只用 encoder 的效果好于 encoder-decoder。
(4) Visual-language pretraining 时,masked image modeling 并不是一个很重要的点。