第三周学习心得 ResNet+ResNext

最新推荐文章于 2024-07-08 19:18:51 发布

沉_曦

最新推荐文章于 2024-07-08 19:18:51 发布

阅读量701

点赞数

文章标签：深度学习 cnn 神经网络

本文链接：https://blog.csdn.net/weixin_45916063/article/details/126004311

版权

这里写目录标题

Part1 论文阅读与视频学习
Part2 代码作业
Part3 本周思考题

Part1 论文阅读与视频学习

ResNet

提出背景

卷积神经网络在图像识别上具有重要意义，其通过多层卷积实现特征的提取，通常来说，卷积层数越多，提取的特征就越丰富，所取得的效果就越佳。各个卷积层中的权重通过反向传播不断更新，以训练出最佳的模型，但当网络层数过深时，将会出现梯度消失或者梯度爆炸问题。梯度消失或者梯度爆炸问题很大程度上可以通过归一初始化和中间的归一化层解决，从而使得网络在反向传播的随机梯度下降中开始收敛，但随之而来会出现退化问题：随着深度的增加，准确率达到饱和，然后迅速下降。
请添加图片描述

ResNet网络创新点

提出了residual模块，解决了梯度爆炸/消失、退化问题，具有非常深的网络结构；
丢弃dropout，使用Batch Normalization加速训练；

ResNet详解

ResNet网络中，对每几个堆叠的层做依次残差学习，每一个残差块如下图所示，每一个残差块被定义为：
$y=F(x,{W_i})+x.$
$x$ 和 $y$ 是残差块的输入、输出向量，函数 $F(x,{W_i})$ 代表要学习的残差映射。在一个残差块中，首先把输入 $x$ 接入卷积层进行卷积操作，再进行 $re l u$ 操作，把得到的结果再传入卷积层，得到 $F (x)$ ，把 $F (x)$ 与 $x$ 进行相加， $F + x$ 的操作由跳接和element-wise addition完成，在相加完后再接入到第二个Relu函数。
请添加图片描述
要保证残差块中的F能与x相加，必须保证两者的维度相同，若两者维度不同，则可以用一个额外的矩阵与x相乘，将x与F的维度变换到相同，再进行相加操作。

请添加图片描述

ResNet具有多种层次结构，层数不同时，所对应的残差块会有些许差别，具体残差块如下图所示：
请添加图片描述

ResNeXt

网络创新点

ResNeXt采用ResNet残差块的重复层策略，但在每个残差块内，采用分割-变换-合并的策略，将输入进行分组，每个分组再单独进行卷积、ReLu等操作，最后再把每个分组的结果进行聚合。

请添加图片描述
ResNeXt以32为分组个数，使得参数量降为ResNet的三十二分之一，并取得了更低的错误率。

请添加图片描述

Part2 代码作业

代码练习还未完成，在运行过程中报了错，还正在找原因。
请添加图片描述

Part3 本周思考题

1. Residual learning的原理

请添加图片描述
在每个残差块中，通过跳接在激活函数之前，把输入与本层计算的输出相加，将求和的结果输入到激活函数中作为本层的输出，若输入用x表示，输出用y表示，则
$y=F(x,{W_i})+x$

2. Batch Normailization 的原理

在图像预处理阶段，一般会对图像进行标准化处理，使得网络收敛加速，ResNet网络中Conv1的输入就是满足某一分布的特征矩阵，但Conv2的输入fearture map就不一定满足某一分布特征，因此使用Batch Normailization进行处理。Batch Normailization作用于feature map，使得feature map满足均值为0、方差为1的分布规律，从而加速网络的收敛。请添加图片描述
如果输入x的维度为d，那么将在每个维度上对fearture map进行标准化处理，因为数据集一般较大，无法同时处理，则对每一批次的每个维度上的feature map进行标准化处理，即Batch Normailization。

3. 为什么分组卷积可以提升准确率？既然分组卷积可以提升准确率，同时还能降低计算量，分数数量尽量多不行吗？

分组卷积通过将输入划分为不同的组，将每组单独进行卷积等操作得到输出，最后把每组的输出进行直接堆叠。在这个过程中，每组进行特征提取时不受其他组的影响，隔绝了不同组的信息交换，在每个输出与输入的一部分特征图相关联时，可以取得更好地性能。
分组数量会影响分组大小，会影响到从多大的局部中提取特征，若局部越小，则提取到特征越分散，特征越没有代表性，若局部越大，则提取到的特征越和整体相关，局部特征越不明显，将退化为普通卷积。