1.VIT论文
2.论文结构
3.论文摘要
- Transformer在NLP中已经成为经典
- CV中,Attention机制只是作为一个补充在使用
- 使用纯Transformer结构就可以在图像分类任务上取得不错的结果
- 在足够大的数据集上训练后,ViT可以拿到和CNN的SOTA不相上下的结果
4.论文精读
4.1 ViT结构
4.1.1 总览
- 对transformer做了最小的改动
- 把图像切分重拍,当做输入
- 实际中只使用了Encoder
4.1.2 Attention
Attention的直觉是:并不用完全编码,一个翻译只与有限的几个词有关
Attention的本质是:加权平均,实际上是相似度计算
4.1.3MultiHead—Attention
本质:input的线性变换
计算:矩阵乘法
实现:nn.linear
MultiHead Attention:有多个Wq,Wk,Wv,将上述操作重复多次connect一起
4.2输入端适配
直接将图片切分,按照编号输入网络。
-
为什么有patch 0?
如果只有原始输出的9个向量,用哪个向量来分类都不好,全用来分类计算量很大,加一个patch 0来整合信息。
4.3 位置编码
图像切分重排后失去了位置信息,并且Transformer的内部运算是空间信息无关的,所以需要把位置信息编码重新传进网络
4.4实验设置及结果分析
结果分析:
-
ViT的性能需要大量的数据
-
Attention距离和网络的层数的关系
5.论文总结
关键点
- 一个用Transformer做分类的Backbone
- 模型结构 Transform Encoder
- MultiHead Attention的意义及计算过程
创新点
- 纯Transformer做分类任务
- 简单的输入端适配即可使用
- 做了大量实验证明纯Transformer做CV的可能性