参考:https://v.qq.com/x/page/x0546ammpvd.html
https://blog.csdn.net/Sakura55/article/details/81512132
https://www.cnblogs.com/vincentqliu/p/7464918.html
https://blog.csdn.net/whz1861/article/details/78229124
一、网络的深度:
CNN能提取low/mid/high-level的特征,网络的特征越深,提取到的不同level的特征越丰富。越深的网络提取的特征越抽象,越具有语义信息。
二、为什么不能简单的增加网络深度:
简单的增加深度,会导致梯度弥散或梯度爆炸。
梯度弥散:反向传播法计算梯度优化,反向传播求隐藏层梯度时利用了链式法则,梯度进行一系列的连乘,导致浅层隐藏层的梯度剧烈衰减,导致梯度消失。
例子:
σ 激活函数,连乘导致梯度爆炸和梯度消失
解决方法:正则化初始化和中间的正则化层(Batch Normalization),这样的话可以训练几十层的网络。
三、退化问题
训练层数增多,