BEiT-3:将图像视为一种外语:用于视觉和视觉-语言任务的BEiT预训练(速读版)

分享一篇微软董力老师组的最新论文^_^

原文:Wang W, Bao H, Dong L, et al. Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks[J]. arXiv preprint arXiv:2208.10442, 2022.

源码:https://aka.ms/beit-3

语言、视觉和多模态预训练的大融合正在出现。在这项工作中,我们提出了一个通用的多模态基础模型BEiT-3,它在视觉和视觉-语言任务上都实现了最先进的迁移性能。具体来说,我们从骨干网络架构、预训练任务和模型扩展三个方面推进了这个大融合。我们提出了用于通用建模的Multiway Transformer,其中模块化架构支持深度融合和特定模态编码。基于共享的骨干网络,我们以统一的方式对图像(Imglish)、文本(English)和图像-文本对(Parallel Sentences)进行掩码“语言”建模。实验结果表明,BEiT-3在目标检测(COCO)、语义分割(ADE20K)、图像分类(ImageNet)、视觉推理(NLVR2)、视觉问答(VQAv2)、图像字幕(COCO)和跨模态检索(Flickr30K,COCO)等任务上取得了SOTA性能。

图1:与其他模型相比,BEiT-3在广泛的任务上取得了最先进的性能。I2T/T2I是image-to-text/text-to-image检索的缩写。

表1:BEiT-3在各种视觉和视觉-语言基准上的结果。

图2:BEiT-3预训练示意图。我们使用共享的Multiway Transformer作为骨干网络,对单模态(图像、文本)和多模态(图像-文本对)数据进行掩码数据建模。

图3:BEiT-3可以迁移到各种视觉和视觉-语言下游任务上。(a)视觉编码器;(b)语言编码器;(c)融合编码器;(d)双编码器;(e)用于图像到文本生成的seq-to-seq learning。

表2:BEiT-3的模型参数。

表3:BEiT-3的预训练数据。

表4:BEiT-3和其他模型在视觉问答、视觉推理、图像字幕任务上的结果。

表5:BEiT-3和其他模型在图像→文本检索和文本→图像检索任务上的结果。对于检索任务,双编码器模型比基于融合编码器的模型更有效。

表6:BEiT-3和其他模型在零样本图像→文本检索和文本→图像检索任务上的结果。

表7:BEiT-3和其他模型在COCO目标检测和实例分割任务上的结果。

表8:BEiT-3和其他模型在ADE20K语义分割任务上的结果。

表9:BEiT-3和其他模型在ImageNet-1K上的Top-1精度。

表10:BEiT-3在COCO和Flickr30K上的图像→文本检索和文本→图像检索的结果。BEiT-3直接在下游基准上进行微调,而无需在预训练数据上进行中间微调。

表11:BEiT-3预训练的超参数。

表12:在NLVR2和VQAv2上微调BEiT-3的超参数。

表13:在COCO Captioning上微调BEiT-3的超参数。

表14:在图像-文本检索数据集上微调BEiT-3的超参数。

表15:在语义分割数据集上微调BEiT-3的超参数。

表16:在目标检测数据集上微调BEiT-3的超参数。

表17:在图像分类数据集上微调BEiT-3的超参数。

在本文中,我们提出了一个通用的多模态基础模型BEiT-3,它在广泛的视觉和视觉-语言基准上实现了最先进的性能。BEiT-3的核心思想是,将图像视为一种外语,这样我们就可以对图像、文本以及图像-文本对进行统一的掩码“语言”建模。我们还证明,Multiway Transformer可以有效地为不同的视觉和视觉-语言任务建模。BEiT-3简单有效,是扩展多模态基础模型的一个有前途的方向。在未来的工作中,我们正在对BEiT-3进行多语言预训练,并在BEiT-3中加入更多的模态(如音频),以促进跨语言和跨模态的迁移,并推动跨任务、跨语言、跨模态大规模预训练的大融合。我们还感兴趣的是,通过结合BEiT-3和MetaLM的优势,为多模态基础模型提供上下文学习的能力。

多模态人工智能

为人类文明进步而努力奋斗^_^↑

欢迎关注“多模态人工智能”公众号^_^↑

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值