卷积神经网络介绍
AlexNet (2012)
- 第一个成功实现大规模图像的模型,在ImageNet 数据集上达到~85% 的top-5 准确率
- 5 个卷积层,3 个全连接层,共有60M 个可学习参数
- 使用ReLU 激活函数,大幅提高收敛速度
- 实现并开源了cuda-convnet ,在GPU 上训练大规模神经网络在工程上成为可能
Going Deeper (2012~2014)
VGG (2014)
GoogLeNet (Inception v1, 2014)
残差网络ResNet (2015)
更强的图像分类模型
神经结构搜索Neural Architecture Search (2016+)
基本思路:借助强化学习等方法搜索表现最佳的网络
代表工作:NASNet (2017)、MnasNet (2018)、EfficientNet (2019) 、RegNet (2020) 等
Vision Transformers (2020+)
使用Transformer 替代卷积网络实现图像分类,使用更大的数据集训练,达到超越卷积网络的精度
代表工作:Vision Transformer (2020),Swin-Transformer (2021 ICCV 最佳论文)
ConvNeXt (2022)
将Swin Transformer 的模型元素迁移到卷积网络中,性能反超Transformer
图像分类& 视觉基础模型的发展
Swin Transformer (ICCV 2021 best paper)
-
Vision Transformer 的特征图是是直接下采样16 倍
得到的,后面的特征图也是维持这个下采样率不变,
缺少了传统卷积神经网络里不同尺寸特征图的层次化
结构。所以,Swin Transformer 提出了分层结构
(金字塔结构)Hierarchical Transformer。 -
同时,相对于Vision Transformer 中直接对整个特征
图进行Multi-Head Self-Attention,Swin
Transformer 将特征图划分成了多个不相交的区域
(Window),将Multi-Head Self-Attention 计算
限制在窗口内,这样能够减少计算量的,尤其是在浅
层特征图很大的时候。 -
由于将Multi-Head Self-Attention 计算限制在窗口内,窗口与窗口之间无法进行信息传递。所以, Swin
Transformer 又提出了Shifted Windows Multi-Head Self-Attention (SW-MSA) 的概念,即第𝑙 + 1 层的窗
口分别向右侧和下方各偏移了半个窗口的位置。那么,这就让信息能够跨窗口传递。
-
通过4 个Stage 构建不同大小的特征图
-
重复堆叠Swin Transformer Block:这里的Block 有两种结构,如图(b) ,一个使用了W-MSA 结
构,一个使用了SW-MSA 结构。这两个结构成对使用,所以堆叠Swin Transformer Block 的个数
都是偶数。
MMClassification 介绍
代码仓库:https://github.com/open-mmlab/mmclassification
文档教程:https://mmclassification.readthedocs.io/en/latest/