VIT论文解读

最新推荐文章于 2024-08-06 22:41:37 发布

Light Runner°J.H.G

最新推荐文章于 2024-08-06 22:41:37 发布

阅读量868

点赞数

分类专栏：计算机视觉文章标签： transformer 计算机视觉人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46881031/article/details/126456721

版权

计算机视觉专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1.VIT论文

请添加图片描述

2.论文结构

请添加图片描述

3.论文摘要

Transformer在NLP中已经成为经典
CV中，Attention机制只是作为一个补充在使用
使用纯Transformer结构就可以在图像分类任务上取得不错的结果
在足够大的数据集上训练后，ViT可以拿到和CNN的SOTA不相上下的结果

4.论文精读

4.1 ViT结构

4.1.1 总览

请添加图片描述

对transformer做了最小的改动
把图像切分重拍，当做输入
实际中只使用了Encoder

4.1.2 Attention

Attention的直觉是：并不用完全编码，一个翻译只与有限的几个词有关

Attention的本质是：加权平均，实际上是相似度计算

请添加图片描述

4.1.3MultiHead—Attention

请添加图片描述

本质：input的线性变换

计算：矩阵乘法

实现：nn.linear

请添加图片描述

MultiHead Attention：有多个Wq，Wk，Wv，将上述操作重复多次connect一起请添加图片描述

4.2输入端适配

直接将图片切分，按照编号输入网络。

为什么有patch 0？

如果只有原始输出的9个向量，用哪个向量来分类都不好，全用来分类计算量很大，加一个patch 0来整合信息。

4.3 位置编码

图像切分重排后失去了位置信息，并且Transformer的内部运算是空间信息无关的，所以需要把位置信息编码重新传进网络

4.4实验设置及结果分析

请添加图片描述

结果分析：

ViT的性能需要大量的数据
Attention距离和网络的层数的关系

请添加图片描述

5.论文总结

关键点

一个用Transformer做分类的Backbone
模型结构 Transform Encoder
MultiHead Attention的意义及计算过程

创新点

纯Transformer做分类任务
简单的输入端适配即可使用
做了大量实验证明纯Transformer做CV的可能性

Light Runner°J.H.G

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。