Vision Transformer论文理解

能吃胖的晨星

已于 2023-03-10 11:54:13 修改

阅读量360

点赞数

文章标签： transformer 深度学习人工智能

于 2023-03-10 10:52:45 首次发布

本文链接：https://blog.csdn.net/weixin_49327481/article/details/129436932

版权

Vision Transformer

提出背景：

当时Transformer在自然语言领域取得巨大成功，但在视觉领域还没有广泛应用。在视觉中的attention要么是直接替换卷积操作，要么是先卷积后attention，但整体上的模型结构并没有变，例如还是几个残差block。但在视觉领域中，对卷积网络的依赖是不必要的，只利用Transformer直接对图片进行操作，效果就可以达到很好。
在这里插入图片描述
但在自然语言中的自注意力机制需要两两进行运算，运算复杂度是n²，目前硬件支持的最大长度也就是几百上千，若将整个256*256分辨率的图片直接拉成像素进attention，复杂度为256X256远远大于几百，故不可行。所以在此文章之前大多数的方法都是用CNN抽取的图片特征图拉直进attention或在图片中取几个小框或者跨轴进行操作（先在高度上进行self-attention再在宽度上进行self-attention）。

本文方法

在这里插入图片描述
将(224,224,3)的图片分成小块，每一块的大小为(16,16,3)；每一个图像块就像一个单词一样。则输入进attention的维度为16*16*3=768，正好和文本维度一样，可直接输入进Transformer。

模型结构如下图：
在这里插入图片描述
其中将整个图片打成9个patch，每个patch维度为1616*3=768。输入进768768的全连接层，在借鉴BERT加上一个[cls]位用于分类，并加入position embedding。

输入197768，经过多头，若使用12个头则每个头的KQV为19764，再concat回到768，经过MLP先升维再降维。