BEiT-3：将图像视为一种外语：用于视觉和视觉-语言任务的BEiT预训练(速读版)

最新推荐文章于 2024-06-27 20:52:12 发布

Civisky

最新推荐文章于 2024-06-27 20:52:12 发布

阅读量1.9k

点赞数 1

文章标签：计算机视觉深度学习人工智能

原文链接：https://arxiv.org/abs/2208.10442

版权

分享一篇微软董力老师组的最新论文^_^

原文：Wang W, Bao H, Dong L, et al. Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks[J]. arXiv preprint arXiv:2208.10442, 2022.

源码：https://aka.ms/beit-3

语言、视觉和多模态预训练的大融合正在出现。在这项工作中，我们提出了一个通用的多模态基础模型BEiT-3，它在视觉和视觉-语言任务上都实现了最先进的迁移性能。具体来说，我们从骨干网络架构、预训练任务和模型扩展三个方面推进了这个大融合。我们提出了用于通用建模的Multiway Transformer，其中模块化架构支持深度融合和特定模态编码。基于共享的骨干网络，我们以统一的方式对图像(Imglish)、文本(English)和图像-文本对(Parallel Sentences)进行掩码“语言”建模。实验结果表明，BEiT-3在目标检测(COCO)、语义分割(ADE20K)、图像分类(ImageNet)、视觉推理(NLVR2)、视觉问答(VQAv2)、图像字幕(COCO)和跨模态检索(Flickr30K，COCO)等任务上取得了SOTA性能。

图1：与其他模型相比，BEiT-3在广泛的任务上取得了最先进的性能。I2T/T2I是image-to-text/text-to-image检索的缩写。

表1：BEiT-3在各种视觉和视觉-语言基准上的结果。

图2：BEiT-3预训练示意图。我们使用共享的Multiway Transformer作为骨干网络，对单模态(图像、文本)和多模态(图像-文本对)数据进行掩码数据建模。

图3：BEiT-3可以迁移到各种视觉和视觉-语言下游任务上。(a)视觉编码器；(b)语言编码器；(c)融合编码器；(d)双编码器；(e)用于图像到文本生成的seq-to-seq learning。

表2：BEiT-3的模型参数。

表3：BEiT-3的预训练数据。

表4：BEiT-3和其他模型在视觉问答、视觉推理、图像字幕任务上的结果。

表5：BEiT-3和其他模型在图像→文本检索和文本→图像检索任务上的结果。对于检索任务，双编码器模型比基于融合编码器的模型更有效。

表6：BEiT-3和其他模型在零样本图像→文本检索和文本→图像检索任务上的结果。

表7：BEiT-3和其他模型在COCO目标检测和实例分割任务上的结果。

表8：BEiT-3和其他模型在ADE20K语义分割任务上的结果。

表9：BEiT-3和其他模型在ImageNet-1K上的Top-1精度。

表10：BEiT-3在COCO和Flickr30K上的图像→文本检索和文本→图像检索的结果。BEiT-3直接在下游基准上进行微调，而无需在预训练数据上进行中间微调。

表11：BEiT-3预训练的超参数。

表12：在NLVR2和VQAv2上微调BEiT-3的超参数。

表13：在COCO Captioning上微调BEiT-3的超参数。

表14：在图像-文本检索数据集上微调BEiT-3的超参数。

表15：在语义分割数据集上微调BEiT-3的超参数。

表16：在目标检测数据集上微调BEiT-3的超参数。

表17：在图像分类数据集上微调BEiT-3的超参数。

在本文中，我们提出了一个通用的多模态基础模型BEiT-3，它在广泛的视觉和视觉-语言基准上实现了最先进的性能。BEiT-3的核心思想是，将图像视为一种外语，这样我们就可以对图像、文本以及图像-文本对进行统一的掩码“语言”建模。我们还证明，Multiway Transformer可以有效地为不同的视觉和视觉-语言任务建模。BEiT-3简单有效，是扩展多模态基础模型的一个有前途的方向。在未来的工作中，我们正在对BEiT-3进行多语言预训练，并在BEiT-3中加入更多的模态(如音频)，以促进跨语言和跨模态的迁移，并推动跨任务、跨语言、跨模态大规模预训练的大融合。我们还感兴趣的是，通过结合BEiT-3和MetaLM的优势，为多模态基础模型提供上下文学习的能力。

多模态人工智能

为人类文明进步而努力奋斗^_^↑

欢迎关注“多模态人工智能”公众号^_^↑

Civisky

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
BEiT-3：将图像视为一种外语：用于视觉和视觉-语言任务的BEiT预训练(速读版)

在本文中，我们提出了一个通用的多模态基础模型BEiT-3，它在广泛的视觉和视觉-语言基准上实现了最先进的性能。BEiT-3的核心思想是，将图像视为一种外语，这样我们就可以对图像、文本以及图像-文本对进行统一的掩码“语言”建模。...
复制链接

扫一扫