ViLT：不用卷积/区域特征监督信号的视觉-语言Transformer(速读版)

最新推荐文章于 2024-05-22 11:30:00 发布

Civisky

最新推荐文章于 2024-05-22 11:30:00 发布

阅读量395

点赞数

文章标签： transformer 深度学习人工智能

原文链接：https://arxiv.org/abs/2102.03334

版权

原文：Kim, Wonjae, Bokyung Son, and Ildoo Kim. "Vilt: Vision-and-language transformer without convolution or region supervision." International Conference on Machine Learning. PMLR, 2021.

源码：https://github.com/dandelin/vilt

视觉-语言预训练(VLP)提高了各种视觉-语言下游任务的性能。当前的VLP方法严重依赖于图像特征提取过程，其中大多数涉及region supervision(如目标检测)和卷积架构(如ResNet)，这在模型效率和表达能力方面都存在问题。在本文中，我们提出了一个极简的VLP模型，即视觉-语言Transformer(ViLT)，将视觉输入的处理被简化为无卷积方式，与文本输入的处理相同。我们表明，ViLT比之前的VLP模型快几十倍，并且在下游任务上具有相当甚至更好的性能。

图1：ViLT与传统VLP架构的比较。我们在不影响下游任务性能的前提下，将卷积神经网络从VLP流程中完全移除。

图2：四种视觉-语言模型的比较。VE、TE和MI分别表示视觉嵌入器、文本嵌入器和模态交互。

如3：模型总览图。插图的灵感来自Dosovitskiy等人的论文(2020年)。

表1：预训练数据集的信息。

表2：ViLT-B/32与其他模型在VQA、NLVR下游任务上的比较。

表3：ViLT-B/32与其他VLP模型在零样本检索任务上的比较。

表4：ViLT-B/32与其他模型在下游检索任务上的比较。

表5：ViLT-B/32的消融研究。w表示预训练期间是否使用全词掩码。m表示预训练期间是否使用MPP。a表示微调期间是否使用RandAugment。

表6：VLP模型的参数量、FLOPs、推理延迟的比较。

表7：VLP模型的组件。

图4：word patch对齐的可视化结果。

在本文中，我们提出了一种极简的VLP架构——视觉-语言Transformer(ViLT)。相比于那些大量配备卷积视觉嵌入网络(如Faster R-CNN和ResNets)的VLP模型，ViLT是有竞争优势的。未来，我们希望更多地关注Transformer模块内部的模态交互。尽管ViLT-B/32很了不起，但它更像是一个概念的证明，即没有卷积和region supervision的VLP模型仍然可以work。最后，我们指出了一些可以增加到ViLT家族的因素。

多模态人工智能

为人类文明进步而努力奋斗^_^↑

欢迎关注“多模态人工智能”公众号^_^↑