OpenMMlab AI实战营第二期培训_openmmlab 交大合作课程ppt-CSDN博客

本文链接：https://blog.csdn.net/weixin_52836217/article/details/129709146

OpenMMlab AI实战营第二期培训

OpenMMlab实战营

OpenMMlab实战营

第二次课2023.2.2

此次实战营的积分规则介绍：

在这里插入图片描述

学习参考

笔记建议结合ppt来学习使用，ppt中对应知识可以参照笔记的标题进行查看。

ppt：lesson2_ppt

b站回放：OpenMMLab AI 实战营

往期笔记：笔记回顾

一、图像分类任务

1.什么是图像分类任务

图像分类任务就是：给定一张图片，识别图像中的物体是什么

2.问题的数学表示

分类任务用数学表达的形式展示出来就是下图所示的样子。

在这里插入图片描述

3.视觉任务的难点

由于图像的内容是像素整体呈现出的结果，和个别像素的值没有直接关联，所以难以遵循具体的规则来设计算法。

所以我们要做的就是**超越规则**（让机器从数据中学习）

二、特征工程到特征学习

1.机器学习的局限

机器学习算法善于处理低维、分布相对简单的数据
图像数据在几十万维的空间中以复杂的方式"缠绕"在一起，常规的机器学习算法难以处理这种复杂数据分布

2.特征工程 v.s. 特征学习

传统方法设计图像特征（1990s~2000s）

在传统的方法中我们设计图像的特征，通过对图像采用人工设计的算法计算梯度（往往是对于一个区域计算梯度，而不是每个像素值计算梯度），然后统计梯度方向分布，最后可以将这些特征向量化，提供给机器学习完成分类任务。

在传统方法中我们通过可视化可以发现，通过计算梯度的方式确实可以很好的保留下来数据的表达，而且极大降低了数据的维度。

其中特征工程的天花板就是在ImageNet图像识别的比赛中冠军队伍使用的：基于手工设计的特征 + 机器学习算法实现图像分类，Top-5 错误率在 25% 上下。

特征学习

在前人特征工程的基础上，我们后续的想法是如何省去人工提取特征的步骤，而是选择让机器自己去学习特征，即**端到端**的实现。

其中最常用的层次化特征的实现方式就是：

卷积神经网络
- 特征和图像一样具有二维空间结构
- 后层特征为空间邻域内前层特征的加权求和
注意力机制
- 现在比较火的是Transformer，主要应用于对自然语言的特征全局特征提取，近两年也被应用在视觉领域。

补充：卷积和注意力都是加权求和的算子

三、骨干网络结构的发展

1.AlexNet（深度学习时代的开始）

在2012年之前我们主流使用的都是传统的视觉算法，而且性能已经达到了瓶颈。在2012年的ImageNet图像分类的大赛中一匹黑马脱颖而出 – AlexNet来自多伦多大学的团队首次使用深度学习方法，一举将错误率降低至 15.3% 。

在这里插入图片描述

在AlexNet网络中，3x224x224的图像输入放在两个gpu中独立计算，到第三步有一个求和，后面继续独立，然后再合在一起做全连接。

AlexNet网络结构的一些创新点如下所示：

第一个成功实现大规模图像的模型，在 ImageNet 数据集上达到 ~85% 的 top-5 准确率
5 个卷积层，3 个全连接层，共有 60M 个可学习参数
使用 ReLU 激活函数，大幅提高收敛速度
实现并开源了 cuda-convnet ，在 GPU 上训练大规模神经网络在工程上成为可能

2.VGGNet（更深）

在VGGNet中，人们频繁的使用3x3的卷积来拆解大尺寸的卷积，意思是：相同的感受野、更少的参数量、更多的层数和表达能力。

如下图所示的一个5x5的卷积可以用两个3x3的卷积来进行替换，他们最终具有相同的感受野。但是替换之后参数量减少了(25 - 18) / 25 ≈ 28%

在这里插入图片描述

同时VGGNet也有多个版本对应于多个不同的深度，有兴趣的小伙伴可以自行了解一下。

3.InceptionNet（如何更有效率的解决问题）

在VGGNet问世之后，人们又提出了一种想法：并不是所有特征都需要同样大小的感受野，在同一层中混合使用不同尺寸的特征可以减少参数量。也就是InceptionNet的分组卷积的提出。

而且大名鼎鼎的GoogLeNet就是基于InceptionNet的结构。

在此基础上人们提出了很多个不同的版本：

InceptionNet V1
InceptionNet V2（用两个3x3的卷积替换一个5x5的卷积）
InceptionNet V3（用1x3和3x1的卷积替换一个3x3的卷积）
InceptionNet V4（引入残差的概念）

4.ResNet（残差引入）

基于之前的模型，人们提出的残差建模的思想：让新增加的层拟合浅层网络与深层网络之间的差异，更容易学习梯度可以直接回传到浅层网络监督浅层网络的学习。没有引入额外参入，让参数更有效贡献到最终的模型中。

使用残差的好处：

残差：观测值与估计值之间的差。
- 我们需要求解的是映射：H(x)。
- 残差结构将这个问题转换为求解网络的残差映射函数，也就是F(x)，其中F(x) = H(x)-x。
如果是采用一般的卷积神经网络（没有+x），原先需要求解的是 H(x) = F(x) 。那么假设在网络达到某一个深度时，网络已经达到最优状态了，再往下加深网络就会出现退化问题（错误率上升的问题）。此时要更新下一层网络的权值/权重就会变得很麻烦。
但是,采用残差网络就能很好的解决退化问题。假设当前网络的深度能够使得错误率最低，如果继续增加上图的 ResNet 结构，为了保证下一层的网络状态仍然是最优状态，我们只需要令 F(x)=0 即可，因为 x 是当前输出的最优解，为了让它成为下一层的最优解也就是希望咱们的输出H(x)=x的话，只要让F(x)=0就行了。采用ResNet 的话，也只需要小小的更新F(x)部分的权重值即可。不用像一般的卷积层一样大幅度更新参数。

常用的两种残差结构如下图所示：

在这里插入图片描述

5.一些更强的图像分类模型

这部分平时我也没有学习到，听直播也没有一些比较深入的理解，所有就先把对应知识总结在这里。

神经结构搜索 Neural Architecture Search (2016+)
- 基本思路：借助强化学习等方法搜索表现最佳的网络
- 代表工作：NASNet (2017)、MnasNet (2018)、EfficientNet (2019) 、RegNet (2020) 等
Vision Transformers (2020+)
- 基本思路：使用 Transformer 替代卷积网络实现图像分类，使用更大的数据集训练，达到超越卷积网络的精度
- 代表工作：Vision Transformer (2020)，Swin-Transformer (2021 ICCV 最佳论文)
ConvNeXt (2022)
- 基本思路：将 Swin Transformer 的模型元素迁移到卷积网络中，性能反超 Transformer