ResNet

kbabk

已于 2024-08-03 22:38:08 修改

阅读量491

点赞数 18

分类专栏：深度学习 # CNN 文章标签： pycharm python 深度学习 cnn

于 2024-08-03 03:31:28 首次发布

本文链接：https://blog.csdn.net/weixin_53867575/article/details/140883247

版权

3 篇文章 0 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

一、深度神经网络的挑战

ResNet，全称Residual Network，是一种深度神经网络结构，解决了深层神经网络在训练过程中遇到的梯度消失和梯度爆炸问题。

这幅图展示了ResNet（残差网络）的核心组件——残差块（Residual Block）及其中的恒等映射（Identity Mapping）。

输入 x：图的左上角是输入 x，它是进入残差块的原始数据。
权重层（Weight Layer）：在图中，"weight layer"表示卷积层，这些层对输入数据进行处理。这个残差块中有两个卷积层，分别对输入 x进行变换。
激活函数 ReLU：在每个卷积层后面，都有一个ReLU激活函数，表示通过这个函数后，输出的负值会被变为0，正值保持不变。
短路连接（Shortcut Connection）：图中右侧的箭头表示恒等映射，这条箭头直接将输入 x 传递到输出层，形成所谓的“短路”。
加法操作（Addition）：在卷积层的输出 F(x)与恒等映射的 x 相加。这里的 F(x)表示通过卷积层和ReLU处理后的结果。相加后的结果再经过一个ReLU激活函数。
输出 F(x)+x：最终输出是输入 x 和卷积层输出 F(x) 的和，再经过一个ReLU激活函数。

这张图展示了ResNet（残差网络）在不同层数（18层、34层、50层、101层和152层）的网络结构概述。图中包含每一层的名称、输出尺寸和具体的卷积操作细节。

Top-1 错误率：模型预测的最有可能的类（即概率最高的那个类）是错误的情况的比例。例如，如果模型预测一张猫的图片为狗，那么这就是一个Top-1错误。
Top-5 错误率：模型预测的前五个最有可能的类中没有正确答案的情况的比例。例如，如果模型预测一张猫的图片时，猫没有出现在前五个预测的类中，那么这就是一个Top-5错误。

这两个指标用于衡量模型的性能，数值越低，模型的性能越好。Top-5 错误率通常低于 Top-1 错误率，因为它允许模型在前五个预测中出错的容忍度更高。

ResNet-34 A：
- 方法：当增加维度时使用零填充（zero-padding）shortcut，其他部分使用恒等（identity）shortcut。
- 解释：零填充shortcut只是简单地将某些位置填充为零，不进行实际计算。这种方法简单，但填充的部分没有进行任何学习。
ResNet-34 B：
- 方法：当增加维度时使用投影（projection）shortcut，其他部分使用恒等（identity）shortcut。
- 解释：投影shortcut使用额外的卷积层来匹配维度，确保所有部分都参与学习。比A方法稍好，因为每一层都在进行实际学习。
ResNet-34 C：
- 方法：所有地方都使用投影（projection）shortcut。
- 解释：投影shortcut遍布整个网络，增加了学习的能力，性能最好，但增加了模型的复杂度和计算量。

因此，B选项通常是较好的选择，性能优于A，复杂度低于C。

1×1卷积层的优点：

降维和升维：1×1卷积层能够减少或增加特征维度。例如，在瓶颈架构中，第一个1×1卷积层将输入的256维降维到64维，这样可以减少计算量；而最后一个1×1卷积层则将维度恢复到256维。
减少计算复杂度：降维后再进行3×3卷积，计算量大大减少。相比直接对高维度数据进行3×3卷积，使用1×1卷积降维可以显著降低计算复杂度。
增强非线性：1×1卷积增加了网络的非线性表达能力，因为每个1×1卷积后面都接有ReLU激活函数。

这样的设计不仅在计算复杂度上更加高效，还有效解决了深层网络中的退化问题，使得ResNet能够在更深的层次上保持高性能。50层、101层和152层的ResNet通过增加这种3层瓶颈块的数量，实现了深层网络的高效训练和高准确率。