vit（vision transformer）

最新推荐文章于 2024-07-22 16:34:27 发布

盐巴饭团193

最新推荐文章于 2024-07-22 16:34:27 发布

阅读量869

点赞数 1

文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/zhu_ba/article/details/132356237

版权

vit的网络结构

ViT将输入图片分为多个patch（16x16），再将每个patch投影为固定长度的向量送入Transformer，后续encoder的操作和原始Transformer中完全相同。但是因为对图片分类，因此在输入序列中加入一个特殊的token，该token对应的输出即为最后的类别预测

ViT只使用了Transformer的encoder，没有decoder

嵌入层

224是输入的序列，经过步长16之后，缩减到14*14，经过flatten线性层展开196。768是卷积之后的输出通道数

（1，768）中的1是类别，和196拼接之后是197

例如输入图片大小为224x224，将图片分为固定大小的patch，patch大小为16x16，则每张图像会生成224x224/16x16=196个patch，即输入序列长度为196，每个patch维度16x16x3=768，线性投射层的维度为768xN (N=768)，因此输入通过线性投射层之后的维度依然为196x768，即一共有196个token，每个token的维度是768。这里还需要加上一个特殊字符cls，因此最终的维度是197x768。197张小图片，每张图片768维

到目前为止，已经通过patch embedding将一个视觉问题转化为了一个seq2seq问题

位置编码（positional encoding）

ViT同样需要加入位置编码，位置编码可以理解为一张表，表一共有N行，N的大小和输入序列长度相同，每一行代表一个向量，向量的维度和输入序列embedding的维度相同（768）。注意位置编码的操作是sum，而不是concat。加入位置编码信息之后，维度依然是197x768

编码层

mlp里面两个全连接层，768->3072，3072->768

LN输出维度依然是197x768。多头自注意力时，先将输入映射到q，k，v，如果只有一个头，qkv的维度都是197x768，如果有12个头（768/12=64），则qkv的维度是197x64，一共有12组qkv，最后再将12组qkv的输出拼接起来，输出维度是197x768，然后在过一层LN，维度依然是197x768

mlp head层

将维度放大再缩小回去，197x768放大为197x3072，再缩小变为197x768

一个block之后维度依然和输入相同，都是197x768，因此可以堆叠多个block。最后会将特殊字符cls对应的输出作为encoder的最终输出，代表最终的image presentation（另一种做法是不加cls字符，对所有的tokens的输出做一个平均）

关于image presentation

是否可以直接使用average pooling得到最终的image presentation，而不加特殊字符cls，通过实验表明，同样可以使用average pooling，原文ViT是为了尽可能是模型结构接近原始的Transformer，所以采用了类似于BERT的做法，加入特殊字符