李沐——论文阅读——VIT(VIsionTransformer)

最新推荐文章于 2024-05-08 20:24:48 发布

诚威_lol_中大努力中

最新推荐文章于 2024-05-08 20:24:48 发布

阅读量577

点赞数

分类专栏：人工智能文章标签：论文阅读

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiao_ZHEDA/article/details/134014041

版权

人工智能专栏收录该内容

31 篇文章 0 订阅

订阅专栏

一、终极结论：

如果在足够多的数据上面去做预训练，那么，我们也可以不用卷积神经网络，而是直接用自然语言处理那边搬过来的 Transformer，也能够把视觉问题解决的很好

（tips：paperswithcode.com——查看各个机器学习领域的State of art）

二、标题信息：

一张图像 == 很多16*16大小的单词序列

三、摘要:

在NLP中无论是Bert,GPT还是T5,其中的transformer已经成为了标配，但是，计算机视觉中tranformer用得还有限，即使是使用了transformer，也只是在整个model的一个stage中用到了自注意力机制。而VIT会告诉你，这些都不用，直接照搬NLP的model就可以了

四、引言：

首先，transformer的应用，使得GPT那些大模型还没有性能饱和，

其次，直接用原始像素的话太大了，不可行，而已有的工作呢，比如，有把网络中间的feature map作为transformer的输入的，也有分横轴、纵轴作为transformer的输入的（这个的硬件加速没有实现，所以很难做大模型）

之后，就是VIT的工作，就是将图像看作1个个16*16大小的“单词序列”，直接输入到NLP的model中即可

最后，结果显示，只要预训练的数据够多，就能够取得比原来卷积神经网络更好的效果

五、结论：

反正，就是这个VIT能够把分类任务做得很好，然后，在图像分割等视觉也应该能够做得很好（挖坑），并提出了一些展望什么的。

六、相关工作：

和introduction中的前期工作相似，多了一个利用图像生成（imageGPT）进行图像分类，当时只是达到72%的正确率，但是，后来何凯明团队提出的MAE却能够利用图像生成在各个图像任务上面取得很好的效果

七、主题：VIT模型的结构

主要就是这个patch embedding的部分，整个transformer Encoder就是重复了L次的上面右图的结构,同时，这个视频也讲到整个 “前向流程”——包括1D的位置编码。。。参见视频即可，需要用的时候再去了解

（对了，这里明白了一个新的点，就是消融实验，一般放到附录中，有点像单一变量原则）

八、实验部分：

就是展示了这个VIT的正确率情况等等。。。反正就是表现得非常nice,还有它里面每一层特征学到的结果，还有改用自监督的方式训练得到的结果正确率只有80%。。。

诚威_lol_中大努力中

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
李沐——论文阅读——VIT(VIsionTransformer)

VIT模型
复制链接

扫一扫

专栏目录

诚威_lol_中大努力中 CSDN认证博客专家 CSDN认证企业博客

码龄2年

206: 原创

3万+: 周排名

1万+: 总排名

6万+: 访问

: 等级

2619: 积分

1214: 粉丝

405: 获赞

12: 评论

448: 收藏

私信

关注

热门文章

分类专栏

最新评论

李宏毅hw-6利用GAN生成动漫图像
诚威_lol_中大努力中: 你好，可以直接看这个博主的页面，里面的链接可以直接跳转到对应的colab，里面的notebook所有作业都有源码的哈https://blog.csdn.net/zzh516451964zzh/article/details/123212671
李宏毅hw-6利用GAN生成动漫图像
小炼丹师: 兄弟，能看看源码吗
李宏毅-hw7-利用Bert完成QA
m0_73307169: 谢谢！
李宏毅-hw7-利用Bert完成QA
诚威_lol_中大努力中: 这个博主页都有colab的notebook的跳转链接哈 https://blog.csdn.net/zzh516451964zzh/article/details/123212671
李宏毅-hw7-利用Bert完成QA
诚威_lol_中大努力中: 你好，可以直接看这个博主的页面，里面的链接可以直接跳转到对应的colab，里面的notebook所有作业都有源码的哈 https://blog.csdn.net/zzh516451964zzh/article/details/123212671

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。