Attention Is All You Need

视频b站链接: https://www.bilibili.com/video/BV15v411W78M
标题:【Transformer中Self-Attention以及Multi-Head Attention详解】

Self-Attention

除去V的部分
在这里插入图片描述
乘V的部分
在这里插入图片描述

Multi-head Self-Attention

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

Vision Transformer (2020年CVPR发表)

首先将输入图片分成多个patch,将每个patch输入到Embedding层,会得到很多向量,称为token,每个patch都对应一个token,在所有token最前边加上一个新的token (专门用于分类的token 称为 class token) ,还需要位置信息position embedding
将上边的向量和Position embedding 都输入到Transformer Encoder中。
提取class token对应的Transformer Encoder的输出输入到MLP Head中,得到最终的结果。
在这里插入图片描述

Embedding层

在这里插入图片描述
卷积核个数等于token_dim等于每个卷积核向量长度。

Position embedding

使用Position embedding和不使用Position embedding的区别。
使用不同Position embedding差异并不大。
在这里插入图片描述
训练得到的位置编码每个位置和其他位置的余弦相似度。得到如下图片:
比如第一行第一个与他所对应的位置编码做余弦相似度等于1

在这里插入图片描述

Transformer Encoder层

在这里插入图片描述

MLP Head层

MLP Head 为linear层,如果是分类,加上softmax。
在这里插入图片描述
Hybrid混合模型
输入图像先进入R50 ,然后进入Patch embedding
在这里插入图片描述
在这里插入图片描述
当epoch比较少的时候 混合模型比纯ViT模型准确率高,但是当epoch逐渐变多的时候,纯ViT模型逐渐变好,甚至超过混合模型。

Shape变化

768 = 3 * 16 * 16
在这里插入图片描述

Swin-Transformer

Swin-Transformer与Vision Transformer对比

在这里插入图片描述

网络架构图

下采样的过程,C(channel)会加倍。

在这里插入图片描述

Patch Merging

在这里插入图片描述

W-MSA模块

在这里插入图片描述
在这里插入图片描述

Shifted Window

在这里插入图片描述

在这里插入图片描述

模型详细配置参数

在这里插入图片描述

  • 4
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值