【OpenMMLab】打卡笔记2 -- 图像分类与基础视觉模型

W.O.E

已于 2023-02-03 19:38:19 修改

阅读量193

点赞数

分类专栏： OpenMMLab 文章标签：分类深度学习计算机视觉 python 开源

于 2023-02-03 18:36:14 首次发布

本文链接：https://blog.csdn.net/weixin_44206632/article/details/128871999

版权

OpenMMLab 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

图像分类与基础视觉模型

图像分类
模型设计
模型学习

图像分类

模型设计

卷积神经网络

AlexNet (2012)
Going Deeper (2012~2014)：VGG (2014)、GoogLeNet (Inception v1, 2014)
残差网络 ResNet (2015)
ResNet 的后续改进
神经结构搜索 Neural Architecture Search (2016+)：NASNet (2017)、 MnasNet (2018)、 EfficientNet (2019) 、 RegNet (2020) 等，借助强化学习等方法搜索表现最佳的网络
Vision Transformers (2020+)：Vision Transformer (2020)， Swin-Transformer (2021 ICCV 最佳论文)，使用 Transformer 替代卷积网络实现图像分类，使用更大的数据集训练，达到超越卷积网络的精度
ConvNeXt (2022)：将 Swin Transformer 的模型元素迁移到卷积网络中，性能反超 Transformer

图像分类 & 视觉基础模型的发展

轻量化卷积神经网络

GoogLeNet 使用不同大小的卷积核
ResNet 使用1×1卷积压缩通道数
可分离卷积

MobileNet V1/V2/V3 (2017~2019)：MobileNet V1 使用可分离卷积，只有 4.2M 参数，MobileNet V2/V3 在 V1 的基础上加入了残差模块和 SE 模块
ResNeXt 中的分组卷积

Vision Transformers

注意力机制 Attention Mechanism

实现Attention

多头注意力 Multi-head (Self-)Attention

Vision Transformer (2020)
将图像切分成若干 16×16 的小块，当作一列"词向量"，经多层 Transformer Encoder 变换产生特征
图块之外加入额外的 token，用于 query 其他 patch 的特征并给出最后分类
注意力模块基于全局感受野，复杂度为尺寸的 4 次方

Swin Transformer (ICCV 2021 best paper)

模型学习

监督学习

基于标注数据学习

自监督学习

基于无标注的数据学习

常见类型
Relative Location (ICCV 2015)
SimCLR (ICML 2020)
Masked autoencoders (MAE, CVPR 2022)

数据增强

组合数据增强

组合图像 Mixup & CutMix

标签平滑 Label Smoothing

W.O.E

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【OpenMMLab】打卡笔记2 -- 图像分类与基础视觉模型

1. 图像分类的模型设计，包括卷积神经网络、轻量化卷积神经网络、Vision Transformers；2. 模型学习介绍，包括监督学习、自监督学习、数据增强。
复制链接

扫一扫