METER(Multimodal End-to-end TransformerER)

最新推荐文章于 2024-07-31 19:38:21 发布

肉嘟嘟的zhu

最新推荐文章于 2024-07-31 19:38:21 发布

阅读量857

点赞数

分类专栏：多模态文章标签： java 前端开发语言

本文链接：https://blog.csdn.net/zhu1534120216/article/details/127330846

版权

多模态专栏收录该内容

25 篇文章 19 订阅

订阅专栏

这是一篇关于视觉语言转换的实证研究，证明视觉编码器和文本编码器用哪个效果更好，证明了合并融合和共同融合哪种融合方式效果更好。文章工作量较大，进行了大量的实验论证，由此挑选出效果最佳的模型组合。但并没有针对某一问题提出解决方案，简言之个人觉得创新性不强，不太明白为什么能够刊在CVPR。（但能刊在CVPR肯定是有过人之处，小女子不才，可能没领会到深处，并无不敬之心，望海涵！）

论文题目（Title）：An Empirical Study of Training End-to-End Vision-and-Language Transformers

研究问题（Question）：研究如何以端到端方式设计和预训练一个完全基于变压器的VL模型。

研究动机（Motivation）：视觉-语言(VL)预训练已被证明在各种视觉-语言下游任务中是非常有效的。尽管最近的研究表明，完全基于变压器的VL模型比以前基于区域特征的方法更有效，但它们在下游任务中的性能往往会显著下降。因此，寻找一个较为合适的VL模型有重要意义。

主要贡献（Contribution）：作者通过实验发现

1.视觉转换器(ViT)在VLP中比语言转换器发挥着更重要的作用，而单纯的视觉转换器或语言转换器在VL任务中的表现并不能很好地反映它在VL任务中的表现。

2.交叉注意的加入有利于多模态融合，这比单独使用自我注意的下游性能更好。

3.在公平的比较设置下，仅编码器的VLP模型在VQA和zero-shot图像-文本检索任务中比编码器-解码器模型表现得更好。

4.在VLP中添加掩模图像建模损失不会在作者的设置中提高下游任务的性能。

研究思路（Idea）：主要通过实验对比选择优秀的编码器

研究方法（Method）：

研究过程（Process）：

1.数据集（Dataset）

预训练阶段数据集有：COCO, Conceptual Captions, SBU Captions, and Visual Genome

2.评估指标（Evaluation）：准确度（ACC）

3.实验结果（Result）：实验太多，整体而言分别选择了较好的图像编码器、文本编码器、融合方式、编码器或编码-解码器的选择，预训练目标等。

总结（Conclusion）：

Vision 端用 vision 的 encoder 模型(如 CLIP-VIT, Swin), language 端用语言的 encoder 模型 (如 Bert, RoBERTa 等等)，编码结束之后用 merged attention 或者 coattention 等方法进行 multimodal fusion, 即双模型的融合，使得最终的 vector 即包含图片信息又包含语意信息。通过实验，作者们得出了如下的结论：

(1) Vision transformer (VIT) 在模型中所起到的作用要高于 language transformer，另外 VIT 在 Imagenet 中的 performance 并不能代表在 vision-language 中的 performance，会出现水土不服，需要重现训练。

(2) 使用 cross-attention 有利于图像和文字信息的融合，比单纯使用 self-attention 效果要好，想来也是有道理的。

(3) 在 VQA (visual question answering 即看图回答问题) 和 image-text retrieval 这两个任务中，我们的 visual-language pretraining 时，只用 encoder 的效果好于 encoder-decoder。

(4) Visual-language pretraining 时，masked image modeling 并不是一个很重要的点。

肉嘟嘟的zhu

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
METER(Multimodal End-to-end TransformerER)

(1) Vision transformer (VIT) 在模型中所起到的作用要高于 language transformer，另外 VIT 在 Imagenet 中的 performance 并不能代表在 vision-language 中的 performance，会出现水土不服，需要重现训练。因此，寻找一个较为合适的VL模型有重要意义。视觉转换器(ViT)在VLP中比语言转换器发挥着更重要的作用，而单纯的视觉转换器或语言转换器在VL任务中的表现并不能很好地反映它在VL任务中的表现。
复制链接

扫一扫

专栏目录