前言
梯度消失和梯度爆炸是深度学习常见的问题
产生的原因
神经网络反向传播固有的问题;
其实梯度爆炸和梯度消失是同一个问题,只是发生在训练的不同时期:
梯度爆炸:发生在训练的初期,靠近输出层的权重变化迅速,随着这些值的累计加上非线性函数,导致靠近输入层的权重更新量变得很大,这就是梯度爆炸。
梯度消失:在神经网络度过梯度爆炸后,靠近输出层的权重基本已经不变化,加上非线性函数的作用,导致靠近出入层的权重基本不变化,这就是梯度消失。
解决方法
参考:https://blog.csdn.net/qq_25737169/article/details/78847691
总结
梯度爆炸发生在训练初期,梯度爆炸发生在训练中后期。