OpenMMLAB AI实战营第二课笔记

JeffDingAI

已于 2023-02-11 13:35:48 修改

阅读量250

点赞数

分类专栏： OpenMMLab 文章标签：人工智能深度学习计算机视觉

于 2023-02-03 14:29:34 首次发布

本文链接：https://blog.csdn.net/yichao_ding/article/details/128865988

版权

18 篇文章 3 订阅

订阅专栏

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

基本思路：借助强化学习等方法搜索表现最佳的网络
代表工作：NASNet (2017)、MnasNet (2018)、EfficientNet (2019) 、RegNet (2020) 等

在这里插入图片描述
使用Transformer 替代卷积网络实现图像分类，使用更大的数据集训练，达到超越卷积网络的精度
代表工作：Vision Transformer (2020)，Swin-Transformer (2021 ICCV 最佳论文)

在这里插入图片描述
将Swin Transformer 的模型元素迁移到卷积网络中，性能反超Transformer

在这里插入图片描述

在这里插入图片描述

Vision Transformer 的特征图是是直接下采样16 倍
得到的，后面的特征图也是维持这个下采样率不变，
缺少了传统卷积神经网络里不同尺寸特征图的层次化
结构。所以，Swin Transformer 提出了分层结构
（金字塔结构）Hierarchical Transformer。
同时，相对于Vision Transformer 中直接对整个特征
图进行Multi-Head Self-Attention，Swin
Transformer 将特征图划分成了多个不相交的区域
（Window），将Multi-Head Self-Attention 计算
限制在窗口内，这样能够减少计算量的，尤其是在浅
层特征图很大的时候。
由于将Multi-Head Self-Attention 计算限制在窗口内，窗口与窗口之间无法进行信息传递。所以， Swin
Transformer 又提出了Shifted Windows Multi-Head Self-Attention (SW-MSA) 的概念，即第𝑙 + 1 层的窗
口分别向右侧和下方各偏移了半个窗口的位置。那么，这就让信息能够跨窗口传递。
通过4 个Stage 构建不同大小的特征图
重复堆叠Swin Transformer Block：这里的Block 有两种结构，如图(b) ，一个使用了W-MSA 结
构，一个使用了SW-MSA 结构。这两个结构成对使用，所以堆叠Swin Transformer Block 的个数
都是偶数。

代码仓库：https://github.com/open-mmlab/mmclassification
文档教程：https://mmclassification.readthedocs.io/en/latest/
在这里插入图片描述

关注

专栏目录