Vision Transformer (ViT)

AI强仔

已于 2023-02-17 14:13:42 修改

阅读量1k

点赞数 1

分类专栏： transformer 图像处理人工智能文章标签： transformer 深度学习计算机视觉

于 2022-10-04 14:42:39 首次发布

人工智能同时被 3 个专栏收录

150 篇文章 20 订阅

订阅专栏

图像处理

35 篇文章 5 订阅

订阅专栏

transformer

33 篇文章 4 订阅

订阅专栏

1 简介

本文根据2021年《AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE》翻译总结的。在本文中提出了模型Vision Transformer (ViT)，其没有使用CNN，而是参考NLP领域的Transformer处理图像，即图像领域纯的Transformer。

该模型之前，主要是ResNet之类的CNN网络在图像领域占主导地位。

ViT是在大规模数据上进行监督预训练，然后在小的下游数据进行fine-tune（微调）。ViT暂时没有使用自监督（SELF-SUPERVISION），类似NLP的mask训练，这个可以后面进一步探讨下。

当预训练数据量小时（ImageNet），ViT表现不如ResNet；但当预训练数据量大时（JFT-300M），ViT表现超越ResNet。Transformers 缺乏 CNN 固有的一些归纳偏置 (inductive biases)，例如平移等效性和局部性 (translation equivariance and locality)，因此在数据量不足的情况下训练时不能很好地泛化。

如上所述，ViT有两个特点，一是采用纯Transformer，没有CNN；二是基于大量的预训练数据。

2 方法

在这里插入图片描述

结合着上面模型架构图和公式一起说明，
1）将图像 H * W * C（如224 * 224 * 3，高 * 宽 * channel）拆成固定大小P * P（如16 * 16）的小块（patch），然后线性embed他们，加上位置embed，最后输入到标准的transformer。
在这里插入图片描述