【OpenMMLab】打卡笔记2 -- 图像分类与基础视觉模型

图像分类

在这里插入图片描述

模型设计

卷积神经网络

  • AlexNet (2012)
  • Going Deeper (2012~2014):VGG (2014)、GoogLeNet (Inception v1, 2014)
  • 残差网络 ResNet (2015)
  • ResNet 的后续改进在这里插入图片描述
  • 神经结构搜索 Neural Architecture Search (2016+):NASNet (2017)、 MnasNet (2018)、 EfficientNet (2019) 、 RegNet (2020) 等,借助强化学习等方法搜索表现最佳的网络
  • Vision Transformers (2020+):Vision Transformer (2020), Swin-Transformer (2021 ICCV 最佳论文),使用 Transformer 替代卷积网络实现图像分类,使用更大的数据集训练,达到超越卷积网络的精度
  • ConvNeXt (2022):将 Swin Transformer 的模型元素迁移到卷积网络中,性能反超 Transformer

图像分类 & 视觉基础模型的发展
在这里插入图片描述

轻量化卷积神经网络

  • GoogLeNet 使用不同大小的卷积核
  • ResNet 使用1×1卷积压缩通道数
  • 可分离卷积
    在这里插入图片描述
  • MobileNet V1/V2/V3 (2017~2019):MobileNet V1 使用可分离卷积,只有 4.2M 参数,MobileNet V2/V3 在 V1 的基础上加入了残差模块和 SE 模块
  • ResNeXt 中的分组卷积在这里插入图片描述

Vision Transformers

  • 注意力机制 Attention Mechanism
    在这里插入图片描述
  • 实现Attention
    在这里插入图片描述
  • 多头注意力 Multi-head (Self-)Attention
    在这里插入图片描述
  • Vision Transformer (2020)
    • 将图像切分成若干 16×16 的小块,当作一列"词向量",经多层 Transformer Encoder 变换产生特征
    • 图块之外加入额外的 token,用于 query 其他 patch 的特征并给出最后分类
    • 注意力模块基于全局感受野,复杂度为尺寸的 4 次方
      在这里插入图片描述
  • Swin Transformer (ICCV 2021 best paper)
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

模型学习

监督学习

基于标注数据学习在这里插入图片描述

自监督学习

基于无标注的数据学习在这里插入图片描述

  • 常见类型在这里插入图片描述
  • Relative Location (ICCV 2015)在这里插入图片描述
  • SimCLR (ICML 2020)在这里插入图片描述
  • Masked autoencoders (MAE, CVPR 2022)在这里插入图片描述

数据增强

  • 组合数据增强
    在这里插入图片描述
  • 组合图像 Mixup & CutMix
    在这里插入图片描述
  • 标签平滑 Label Smoothing
    在这里插入图片描述
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值