分享一篇微软董力老师组的最新论文^_^
原文:Wang W, Bao H, Dong L, et al. Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks[J]. arXiv preprint arXiv:2208.10442, 2022.
源码:https://aka.ms/beit-3
语言、视觉和多模态预训练的大融合正在出现。在这项工作中,我们提出了一个通用的多模态基础模型BEiT-3,它在视觉和视觉-语言任务上都实现了最先进的迁移性能。具体来说,我们从骨干网络架构、预训练任务和模型扩展三个方面推进了这个大融合。我们提出了用于通用建模的Multiway Transformer,其中模块化架构支持深度融合和特定模态编码。基于共享的骨干网络,我们以统一的方式对图像(Imglish)、文本(English)和图像-文本对(Parallel Sentences)进行掩码“语言”建模。实验结果表明,BEiT-3在目标检测(COCO)、语义分割(ADE20K)、图像分类(ImageNet)、视觉推理(NLVR2)、视觉问答(VQAv2)、图像字幕(COCO)和跨模态检索(Flickr30K,COCO)等任务上取得了SOTA性能。
图1:与其他模型相比,BEiT-3在广泛的任务上取得了最先进的性能。I2T/T2I是image-to-text/text-to-image检索的缩写。
表1:BEiT-3在各种视觉和视觉-语言基准上的结果。
图2:BEiT-3预训练示意图。我们使用共享的Multiway Transformer作为骨干网络,对单模态(图像、文本)和多模态(图像-文本对)数据进行掩码数据建模。
图3:BEiT-3可以迁移到各种视觉和视觉-语言下游任务上。(a)视觉编码器;(b)语言编码器;(c)融合编码器;(d)双编码器;(e)用于图像到文本生成的seq-to-seq learning。
表2:BEiT-3的模型参数。
表3:BEiT-3的预训练数据。
表4:BEiT-3和其他模型在视觉问答、视觉推理、图像字幕任务上的结果。
表5:BEiT-3和其他模型在图像→文本检索和文本→图像检索任务上的结果。对于检索任务,双编码器模型比基于融合编码器的模型更有效。
表6:BEiT-3和其他模型在零样本图像→文本检索和文本→图像检索任务上的结果。
表7:BEiT-3和其他模型在COCO目标检测和实例分割任务上的结果。
表8:BEiT-3和其他模型在ADE20K语义分割任务上的结果。
表9:BEiT-3和其他模型在ImageNet-1K上的Top-1精度。
表10:BEiT-3在COCO和Flickr30K上的图像→文本检索和文本→图像检索的结果。BEiT-3直接在下游基准上进行微调,而无需在预训练数据上进行中间微调。
表11:BEiT-3预训练的超参数。
表12:在NLVR2和VQAv2上微调BEiT-3的超参数。
表13:在COCO Captioning上微调BEiT-3的超参数。
表14:在图像-文本检索数据集上微调BEiT-3的超参数。
表15:在语义分割数据集上微调BEiT-3的超参数。
表16:在目标检测数据集上微调BEiT-3的超参数。
表17:在图像分类数据集上微调BEiT-3的超参数。
在本文中,我们提出了一个通用的多模态基础模型BEiT-3,它在广泛的视觉和视觉-语言基准上实现了最先进的性能。BEiT-3的核心思想是,将图像视为一种外语,这样我们就可以对图像、文本以及图像-文本对进行统一的掩码“语言”建模。我们还证明,Multiway Transformer可以有效地为不同的视觉和视觉-语言任务建模。BEiT-3简单有效,是扩展多模态基础模型的一个有前途的方向。在未来的工作中,我们正在对BEiT-3进行多语言预训练,并在BEiT-3中加入更多的模态(如音频),以促进跨语言和跨模态的迁移,并推动跨任务、跨语言、跨模态大规模预训练的大融合。我们还感兴趣的是,通过结合BEiT-3和MetaLM的优势,为多模态基础模型提供上下文学习的能力。
多模态人工智能
为人类文明进步而努力奋斗^_^↑
欢迎关注“多模态人工智能”公众号^_^↑