Vision Transformer (ViT)

1 简介

本文根据2021年《AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE》翻译总结的。在本文中提出了模型Vision Transformer (ViT),其没有使用CNN,而是参考NLP领域的Transformer处理图像,即图像领域纯的Transformer。

该模型之前,主要是ResNet之类的CNN网络在图像领域占主导地位。

ViT是在大规模数据上进行监督预训练,然后在小的下游数据进行fine-tune(微调)。ViT暂时没有使用自监督(SELF-SUPERVISION),类似NLP的mask训练,这个可以后面进一步探讨下。

当预训练数据量小时(ImageNet),ViT表现不如ResNet;但当预训练数据量大时(JFT-300M),ViT表现超越ResNet。Transformers 缺乏 CNN 固有的一些归纳偏置 (inductive biases),例如平移等效性和局部性 (translation equivariance and locality),因此在数据量不足的情况下训练时不能很好地泛化。

如上所述,ViT有两个特点,一是采用纯Transformer,没有CNN;二是基于大量的预训练数据。

2 方法

在这里插入图片描述

在这里插入图片描述

结合着上面模型架构图和公式一起说明,
1) 将图像 H * W * C(如224 * 224 * 3,高 * 宽 * channel)拆成固定大小P * P(如16 * 16)的小块(patch),然后线性embed他们,加上位置embed,最后输入到标准的transformer。
在这里插入图片描述

整个过程就是上面的公式1. 其中D是embedding的维度

2) multiheaded self-attention (MSA),如公式2.
3) MLP包括两个带有GELU非线性的层。如公式3.
4) Fine-tune时,去掉预训练的预测head,换成一个零初始化的D*K的feedforword层,其中K表示下游任务的分类数量。

实验中,我们采用了如下一些模型:

在这里插入图片描述

3 实验

可以看到我们的模型ViT,在各任务中基本是最好的,尤其是ViT-H。
在这里插入图片描述

ViT与ResNet、和混合模型Hybird(CNN+transformer)相比,在相同的计算能力下,ViT准确率高于ResNet;对于小的模型时,混合模型Hybird表现好于ViT,但当变成大模型时,差距就不存在了。
在这里插入图片描述

下图说明,当预训练数据量小时(ImageNet),ViT表现不如ResNet;但当预训练数据量大时(JFT-300M),ViT表现超越ResNet。

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值