ViLT:不用卷积/区域特征监督信号的视觉-语言Transformer(速读版)

原文:Kim, Wonjae, Bokyung Son, and Ildoo Kim. "Vilt: Vision-and-language transformer without convolution or region supervision." International Conference on Machine Learning. PMLR, 2021.

源码:https://github.com/dandelin/vilt

视觉-语言预训练(VLP)提高了各种视觉-语言下游任务的性能。当前的VLP方法严重依赖于图像特征提取过程,其中大多数涉及region supervision(如目标检测)和卷积架构(如ResNet),这在模型效率和表达能力方面都存在问题。在本文中,我们提出了一个极简的VLP模型,即视觉-语言Transformer(ViLT),将视觉输入的处理被简化为无卷积方式,与文本输入的处理相同。我们表明,ViLT比之前的VLP模型快几十倍,并且在下游任务上具有相当甚至更好的性能。

图1:ViLT与传统VLP架构的比较。我们在不影响下游任务性能的前提下,将卷积神经网络从VLP流程中完全移除。

图2:四种视觉-语言模型的比较。VE、TE和MI分别表示视觉嵌入器、文本嵌入器和模态交互。

如3:模型总览图。插图的灵感来自Dosovitskiy等人的论文(2020年)。

表1:预训练数据集的信息。

表2:ViLT-B/32与其他模型在VQA、NLVR下游任务上的比较。

表3:ViLT-B/32与其他VLP模型在零样本检索任务上的比较。

表4:ViLT-B/32与其他模型在下游检索任务上的比较。

表5:ViLT-B/32的消融研究。w表示预训练期间是否使用全词掩码。m表示预训练期间是否使用MPP。a表示微调期间是否使用RandAugment。

表6:VLP模型的参数量、FLOPs、推理延迟的比较。

表7:VLP模型的组件。

图4:word patch对齐的可视化结果。

在本文中,我们提出了一种极简的VLP架构——视觉-语言Transformer(ViLT)。相比于那些大量配备卷积视觉嵌入网络(如Faster R-CNN和ResNets)的VLP模型,ViLT是有竞争优势的。未来,我们希望更多地关注Transformer模块内部的模态交互。尽管ViLT-B/32很了不起,但它更像是一个概念的证明,即没有卷积和region supervision的VLP模型仍然可以work。最后,我们指出了一些可以增加到ViLT家族的因素。

多模态人工智能

为人类文明进步而努力奋斗^_^↑

欢迎关注“多模态人工智能”公众号^_^↑

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值