论文中给出了VIT模型架构,整体思想是先将图像分割成固定大小的块,线性嵌入每个块,并添加位置嵌入,并将生成的矢量序列提供给标准Transformer编码器。
流程就是,首先将输入图片(224x224)按照16x16大小的Patch进行划分,划分后会得到196个Patches,然后接着通过线性映射将每个Patch映射到一维向量中,每个Patche数据shape为[16, 16, 3](其中3为通道数)通过映射得到一个长度为768的向量(也称为token)。
之后我们得到196个长度为768的向量,首先是添加类别编码,我们为每个token添加类别编码,即[196,768]与[1,768]拼接都得到[197,768]的二维向量。接下来就是Position Embedding,添加位置编码后矩阵形状不变即:[197,768]。
然后送入编码器(Transformer Encoder),Transformer Encoder的组成,如图,由多头自注意和MLP块的交替层组成。在每个块之前应用层范数(Norm),在每个块之后应用残差连接。
MLP Head预测头
通过Transformer Encoder后输出的shape和输入的shape是保持不变的,只需要提取[class]token生成的对应结果就行,从[197,768]中抽取出[class]token对应的[1,768]。接着我们通过MLP Head得到我们最终的分类结果 。