目前优化神经网络的方法都是基于反向传播的思想,即根据损失函数计算的误差通过梯度反向传播的方式,指导深度网络权值的更新优化。深度网络有很多非线性层堆叠
反向传播:(链式法则)
梯度消失与梯度爆炸形成的原因:
深度神经网络训练的时候,采用的反向传播方式,该方式背后其实是链式求导,计算每层梯度的时候会涉及一些连乘操作,因此如果网络过深,那么如果连乘的因子大部分小于1,最后乘积可能趋于0(梯度消失);另一方面,如果连乘的因子大部分大于1,最后乘积可能趋于无穷(梯度爆炸)。
梯度消失:深层网络+不合适的损失函数 sigmoid:损失函数,其梯度是不可能超过0.25的,这样经过链式求导之后,很容易发生梯度消失
梯度爆炸:深层网络+权值初始值过大
解决方案:
-
预训练加微调
-
梯度剪切(强制限定梯度在某一个范围内)、正则(L1、L2正则)
-
( 重点)Relu(用的最多)、leakrelu、elu等激活函数
- relu的优点:
- 1)解决了梯度消失、爆炸的问题
- 2)计算方便,计算速度快
- 3)加速了网络的训练
- Relu的缺点:
- 1)由于负数部分恒为0,会导致一些神经元无法激活(可通过设置小学习率部分解决)
- 2)输出不是以0为中心的
- Leakrelu: leakrelu=max(k∗x,x), 其中k是leak系数,一般选择0.01或者0.02,或者通过学习而来
- leakrelu解决了0区间带来的影响,而且包含了relu的所有优点
- Elu
- relu的优点:
-
(重点)Batchnorm(BN)批规范化 具有加速网络收敛速度,提升训练稳定性的效果
正向传播中f_2=f_1 (w^T*x+b),那么反向传播中,(∂f_2)/∂_x =(∂f_2)/(∂f_1 ) w,反向传播式子中有w的存在,所以w的大小影响了梯度的消失和爆炸,batchnorm就是通过对每一层的输出规范为均值和方差一致的方法,消除了w带来的放大缩小的影响,进而解决梯度消失和爆炸的问题,或者可以理解为BN将输出从饱和区拉倒了非饱和区。 -
残差结构:跨层连接