一、residual结构
优点:
(1)超深的网络结构(突破1000层)
(2)提出residual模块
(3)使用Batch Normalization加速训练(丢弃dropout)
解决问题:
(1)
梯度消失和梯度爆炸
(2)
退化问题,即层数深效果反而不好
右图对比左图,
可以减少计算的参数
二、
![](https://i-blog.csdnimg.cn/blog_migrate/5c2d86a577bb117e2be77cf80d74b5dd.png)
option B 可以使实线部分的输入矩阵和输出矩阵shape不同
三、Batch Normalization
![](https://i-blog.csdnimg.cn/blog_migrate/ba61d843bd26f719719000665ed655ab.png)
四、网络结构图
![](https://i-blog.csdnimg.cn/blog_migrate/b4b4e33331568d595d3e9a61331875a5.png)