图像分类与基础视觉模型
一、问题描述
- 图像分类:给定一张图片,识别出图片中物体所属的类别
- 实现步骤:收集数据->定义模型->训练->预测
二、卷积神经网络
- AlexNet
- VGG-19
- GoogLeNet
- 残差学习:让新增加的层拟合浅层网络与深层网络之间的差异,更容易学习。梯度可以直接回传到浅层网络监督浅层网络的学习
三、更强的分类模型
- 神经架构搜索:借助强化学习设计网络结构
- Vision Transformers:使用 Transformer 替代卷积网络实现图像分类,使用更大的数据集训练,达到超越卷积网络的精度
- ConvNeXt:将 Swin Transformer 的模型元素迁移到卷积网络中
四、轻量化卷积神经网络
- 降低模型参数量和计算量的方法:降低通道数、减小卷积核的尺寸
- GoogLeNet:使用大小不同的卷积核来减小参数量
- ResNet:使用1*1卷积降低通道数
- 可分离卷积:将常规卷积分解为逐层卷积和逐点卷积,降低参数量和计算量