图像分类简介

OpenMMLab 学习二:分类

分类任务目标:给定一张图片,识别图片中的物体

让机器学习

  1. 收集数据,并标注

  2. 定义模型 -> 可学习参数

  3. 训练 -> 更新参数

  4. 预测 -> 使用训练好的模型去识别类别

传统方法

图片
人工设定算法
抽取特征向量
让机器学习
预测

: 方向梯度直方图(极大简化图像中的信息,只保留了一些边缘信息)
在这里插入图片描述

深度学习方法

图片
可学习的特征提取算法
预测

:卷积神经网络

在这里插入图片描述

卷积神经网络

卷积神经网络的成功:AlexNet在2012年ImageNet上达到 ~85%的top5准确率

发展

VGG Block
Inception Block
Residuals
AlexNet 85%
VGG 92.7%
GoogleNet 93.4%
Resnet 94.4%

VGG Block

  1. 加深网络层数

  2. 卷积使用padding,维持空间分辨率

  3. 再经过一定卷积数量后进行下采样,生成更抽象的特征

Inception Block

  1. 使用多分支结构

  2. 使用两个3x3的卷积替代一个5x5的卷积,降低参数量

Residuals

  1. 解决模型深度到一定程度后,准确率下降

  2. 思想:让新增的层和之前的层产生差异,使得模型更容易学习,让梯度可以直接回传到浅层网络中学习。

后续改进

  1. ResNet B/C/D: 改变残差块的局部

  2. ResNeXt:使用分组卷积,降低参数量

  3. SEResNet:通道维度引入注意力机制

更强的模型

NAS(Neural Architecture Search):借助强化学习去搜索最佳网络(NASNet、EfficientNet)

ViT(Vision Transformers):使用Transformer结构去替代CNN(ViT、SwinTransformer)

CNN + Transformer:结合CNN和Transformer的各个优势去构建网络(ConvNeXt、CoAt)

在这里插入图片描述

轻量化卷积神经网络

卷积神经网络的主要参数量:卷积核 * 通道数 + 偏置

( K h ∗ K w ∗ C i n + K h ∗ K w ) ∗ C o u t (K_h * K_w * C_{in} + K_h * K_w)* C_{out} (KhKwCin+KhKw)Cout

降低参数量方法

  1. 多分枝中,将3x3转换为1x1的卷积(Inception Block)

  2. 使用1x1卷积压缩通道,降低开销(Bottleneck Block)

  3. 可分离卷积(MobileNet、ResNeXt)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值