一、residual结构
优点:
(1)超深的网络结构(突破1000层)
(2)提出residual模块
(3)使用Batch Normalization加速训练(丢弃dropout)
解决问题:
(1)
梯度消失和梯度爆炸
(2)
退化问题,即层数深效果反而不好
右图对比左图,
可以减少计算的参数
二、
![](https://img-blog.csdnimg.cn/direct/f7d8f64379ed40d493faccc0b2a65110.png)
option B 可以使实线部分的输入矩阵和输出矩阵shape不同
三、Batch Normalization
![](https://img-blog.csdnimg.cn/direct/862dce01c3644bfcbf83ec1d41addac6.png)
四、网络结构图
![](https://img-blog.csdnimg.cn/direct/27d5c597aece4c629d869f7bfee8ad98.png)