VIT论文解读

1.VIT论文

请添加图片描述

2.论文结构

请添加图片描述

3.论文摘要

  • Transformer在NLP中已经成为经典
  • CV中,Attention机制只是作为一个补充在使用
  • 使用纯Transformer结构就可以在图像分类任务上取得不错的结果
  • 在足够大的数据集上训练后,ViT可以拿到和CNN的SOTA不相上下的结果

4.论文精读

4.1 ViT结构

4.1.1 总览

请添加图片描述

  • 对transformer做了最小的改动
  • 把图像切分重拍,当做输入
  • 实际中只使用了Encoder

4.1.2 Attention请添加图片描述

Attention的直觉是:并不用完全编码,一个翻译只与有限的几个词有关

Attention的本质是:加权平均,实际上是相似度计算

请添加图片描述
请添加图片描述

4.1.3MultiHead—Attention

请添加图片描述

本质:input的线性变换

计算:矩阵乘法

实现:nn.linear

请添加图片描述

MultiHead Attention:有多个Wq,Wk,Wv,将上述操作重复多次connect一起请添加图片描述
请添加图片描述

4.2输入端适配

直接将图片切分,按照编号输入网络。

  • 为什么有patch 0?

    如果只有原始输出的9个向量,用哪个向量来分类都不好,全用来分类计算量很大,加一个patch 0来整合信息。

4.3 位置编码

图像切分重排后失去了位置信息,并且Transformer的内部运算是空间信息无关的,所以需要把位置信息编码重新传进网络

4.4实验设置及结果分析

请添加图片描述

结果分析:

  • ViT的性能需要大量的数据

  • Attention距离和网络的层数的关系

请添加图片描述

5.论文总结

关键点

  • 一个用Transformer做分类的Backbone
  • 模型结构 Transform Encoder
  • MultiHead Attention的意义及计算过程

创新点

  • 纯Transformer做分类任务
  • 简单的输入端适配即可使用
  • 做了大量实验证明纯Transformer做CV的可能性
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值