学习记录——Transformer、ViT、Swin-Transformer、SegFormer、TopFormer、Seaformer

VIP文章 Chaoy6565

已于 2023-09-11 10:56:31 修改

阅读量1.2k

点赞数 2

分类专栏：分割文章标签： transformer 深度学习人工智能语义分割

于 2023-07-12 15:36:51 首次发布

本文链接：https://blog.csdn.net/weixin_45464524/article/details/131668530

版权

Transformer

2017 Computation and Language Google

Self-Attention、Multi-Head Attention

在这里插入图片描述
位置编码

原理参考链接
ransformer网络结构：
在这里插入图片描述

ViT

2020 ICLR
将transformer引入到cv领域
在这里插入图片描述
将输入图片224x224x3按照16x16x3大小的Patch进行划分，接着通过线性映射将每个Patch映射到一维向量中，以ViT-B/16为例，每个Patch数据shape为[16, 16, 3]通过映射得到一个长度为768的向量（后面都直接称为token）。[16, 16, 3] -> [768]。
在代码实现中，直接通过一个卷积层来实现。以ViT-B/16为例，直接使用一个卷积核大小为16x16，步距为16，卷积核个数为768的卷积来实现。通过卷积[224, 224, 3] -> [14, 14, 768]，然后把H以及W两个维度展平即可[14, 14, 768] -> [196, 768]，此时正好变成了一个二维矩阵，正是Transformer想要的。
在输入Transformer Encoder之前注意需要加上[class]token以及Position Embedding。在原论文中，作者说参考BERT，在刚刚得到的一堆tokens中插入一个专门用于分类的[class]token，这个[class]token是一个可训练的参数，数据格式和其他token一样都是一个向量，以ViT-B/16为例，就是一个长度为768的向量，与之前从图片中生成的tokens拼接在一起，Cat([1, 768], [196, 768]) -> [197, 768]。然后关于Position Embedding就是之前Transformer中讲到的Positional Encoding，这里的Position Embedding采用的是一个可训练的参数（1D Pos. Emb.），是直接叠加在tokens上的（add），所以shape要一样。以ViT-B/16为例，刚刚拼接[class]token后shape是[197, 768]，那么这里的Position Embedding的shape也是[197, 768]。

Transformer Encoder

Layer Norm，这种Normalization方法主要是针对NLP领域提出的。
MLP Block，如图右侧所示，就是全连接+GELU激活函数+Dropout组成也非常简单，需要注意的是第一个全连接层会把输入节点个数翻4倍[197, 768] -> [197, 3072]，第二个全连接层会还原回原节点个数[197, 3072] -> [197, 768]。
在这里插入图片描述

Hybrid混合模型

Hybrid混合模型，就是将传统CNN特征提取和Transformer进行结合。这里的R50的卷积层采用的StdConv2d不是传统的Conv2d，然后将所有的BatchNorm层替

最低0.47元/天解锁文章

Chaoy6565

关注

2
点赞
踩
11

收藏

觉得还不错? 一键收藏
打赏
0
评论
学习记录——Transformer、ViT、Swin-Transformer、SegFormer、TopFormer、Seaformer

在原论文中，作者说参考BERT，在刚刚得到的一堆tokens中插入一个专门用于分类的[class]token，这个[class]token是一个可训练的参数，数据格式和其他token一样都是一个向量，以ViT-B/16为例，就是一个长度为768的向量，与之前从图片中生成的tokens拼接在一起，Cat([1, 768], [196, 768]) -> [197, 768]。如上面的框架图所示，该网络先对图像进行1/2、1/4和1/8的下采样，再分别用两个分支进行处理，红色的是上下文分支，蓝色的是空间分支。
复制链接

扫一扫