vision transformer论文笔记及模型解析【笔记】

论文中给出了VIT模型架构,整体思想是先将图像分割成固定大小的块,线性嵌入每个块,并添加位置嵌入,并将生成的矢量序列提供给标准Transformer编码器。

流程就是,首先将输入图片(224x224)按照16x16大小的Patch进行划分,划分后会得到196个Patches,然后接着通过线性映射将每个Patch映射到一维向量中,每个Patche数据shape为[16, 16, 3](其中3为通道数)通过映射得到一个长度为768的向量(也称为token)。

之后我们得到196个长度为768的向量,首先是添加类别编码,我们为每个token添加类别编码,即[196,768]与[1,768]拼接都得到[197,768]的二维向量。接下来就是Position Embedding,添加位置编码后矩阵形状不变即:[197,768]。

然后送入编码器(Transformer Encoder),Transformer Encoder的组成,如图,由多头自注意和MLP块的交替层组成。在每个块之前应用层范数(Norm),在每个块之后应用残差连接。

MLP Head预测头 

通过Transformer Encoder后输出的shape和输入的shape是保持不变的,只需要提取[class]token生成的对应结果就行,从[197,768]中抽取出[class]token对应的[1,768]。接着我们通过MLP Head得到我们最终的分类结果 。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值