原文:Kim, Wonjae, Bokyung Son, and Ildoo Kim. "Vilt: Vision-and-language transformer without convolution or region supervision." International Conference on Machine Learning. PMLR, 2021.
源码:https://github.com/dandelin/vilt
视觉-语言预训练(VLP)提高了各种视觉-语言下游任务的性能。当前的VLP方法严重依赖于图像特征提取过程,其中大多数涉及region supervision(如目标检测)和卷积架构(如ResNet),这在模型效率和表达能力方面都存在问题。在本文中,我们提出了一个极简的VLP模型,即视觉-语言Transformer(ViLT),将视觉输入的处理被简化为无卷积方式,与文本输入的处理相同。我们表明,ViLT比之前的VLP模型快几十倍,并且在下游任务上具有相当甚至更好的性能。
图1:ViLT与传统VLP架构的比较。我们在不影响下游任务性能的前提下,将卷积神经网络从VLP流程中完全移除。
图2:四种视觉-语言模型的比较。VE、TE和MI分别表示视觉嵌入器、文本嵌入器和模态交互。
如3:模型总览图。插图的灵感来自Dosovitskiy等人的论文(2020年)。
表1:预训练数据集的信息。
表2:ViLT-B/32与其他模型在VQA、NLVR下游任务上的比较。
表3:ViLT-B/32与其他VLP模型在零样本检索任务上的比较。
表4:ViLT-B/32与其他模型在下游检索任务上的比较。
表5:ViLT-B/32的消融研究。w表示预训练期间是否使用全词掩码。m表示预训练期间是否使用MPP。a表示微调期间是否使用RandAugment。
表6:VLP模型的参数量、FLOPs、推理延迟的比较。
表7:VLP模型的组件。
图4:word patch对齐的可视化结果。
在本文中,我们提出了一种极简的VLP架构——视觉-语言Transformer(ViLT)。相比于那些大量配备卷积视觉嵌入网络(如Faster R-CNN和ResNets)的VLP模型,ViLT是有竞争优势的。未来,我们希望更多地关注Transformer模块内部的模态交互。尽管ViLT-B/32很了不起,但它更像是一个概念的证明,即没有卷积和region supervision的VLP模型仍然可以work。最后,我们指出了一些可以增加到ViLT家族的因素。
多模态人工智能
为人类文明进步而努力奋斗^_^↑
欢迎关注“多模态人工智能”公众号^_^↑