Vision Transformer

好喜欢吃红柚子

已于 2023-12-06 07:52:42 修改

阅读量140

点赞数

分类专栏：模型详解与复现 Python和Pytorch学习文章标签： transformer 深度学习人工智能

于 2023-12-04 10:20:20 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45662399/article/details/134776247

版权

Python和Pytorch学习同时被 2 个专栏收录

38 篇文章 173 订阅

订阅专栏

模型详解与复现

10 篇文章 0 订阅

订阅专栏

Vision Transformer详解-CSDN博客

视频：11.1 Vision Transformer(vit)网络详解_哔哩哔哩_bilibili

Vision Transformer学习笔记_linear projection of flattened patches-CSDN博客

一、embedding 层

对于标准的Transformer模块，要求输入的是token (向量）序列，即二维矩阵[num_token,token_dim]；

在代码实现中，直接通过一个卷积层来实现以ViT一 B/16为例，使用卷积核大小为16x16,stride为16, 卷积核个数为768；

[224, 224, 3] -> [14, 14, 768] -> [196, 768]

在输入Transformer Encoder之前需要加上[class]token 以及Position Embedding,都是可训练参数

拼接[class]token: Cat([1,768],[196,768])->[197,768]
叠加Position Embedding: [197,768]->[197,768]

在这里我画了一个图来解释一下整体过程：

二、Encoder层

主要完成机制就是多头注意力机制。

三、 MLP Head层

把class token从最终结果[197,768]中切片拿出来，对其进行linear全连接（简单理解），如果需要类别概率的话，可以再接一个softmax

借用我导的图片来总结一下

四、代码实现

deep-learning-for-image-processing/pytorch_classification/vision_transformer at master · WZMIAOMIAO/deep-learning-for-image-processing · GitHub

4.1 数据集

使用的数据集为苹果树叶数据集，共有5788张，5个类，分别是苹果树叶的三种疾病类（各1000张）、一个healthy类（1645张）和一个无关类（1143张）

4.2 训练过程

使用patch=16、输入图像为224*224的vit在imagenet21k上预训练过的模型进行了实验，实验设置80%的训练集和20%的测试集

train.py文件需要修改的数据集路径和预训练权重

参数设置： epoch=10，batchsize=8，最终的训练结果准确率达到96.7%

训练过程：

生成的权重文件：

4.3 预测过程

predict.py文件需要修改的预测图片的路径以及训练的权重路径

测试结果如下：

好喜欢吃红柚子

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Vision Transformer

把class token从最终结果[197,768]中切片拿出来，对其进行linear全连接（简单理解），如果需要类别概率的话，可以再接一个softmax。在代码实现中，直接通过一个卷积层来实现以ViT一 B/16为例，使用卷积核大小为16x16,stride为16, 卷积核个数为768；对于标准的Transformer模块，要求输入的是token (向量）序列，即二维矩阵[num_token,token_dim]；以及Position Embedding。借用我导的图片来总结一下。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。