为什么权重矩阵需要初始化?
参考网站网址:https://ph0en1xgseek.github.io/2018/02/22/Xavier/
这是一个深度学习领域遇到的老问题了,即使是现在,任何一个新提出的模型,无论是MLP、CNN、还是RNN,随着深度的加深,这两个问题变得尤为严重。
*
梯度消失是指在深度学习训练的过程中,梯度随着链式求导逐层传递逐层减小,最后趋近于0,导致对某些层的训练失效;
*
梯度爆炸与梯度消失相反,梯度随着链式求导逐层传递逐层增大,最后趋于无穷,导致某些层无法收敛;
出现梯度消失和梯度爆炸的问题主要是因为参数初始化不当以及激活函数选择不当造成的,这在之后我会做相应的笔记来讨论batch normalization与激活函数
简单理解:深度学习是将样本空间映射到类别样本空间,因此样本空间与类别空间之间的分布差异不能太大,若如此,比如样本空间分布稀疏,类别空间分布稠密,那么通过链式求导法则把类别空间误差传递到样本空间的误差就会显得微不足道,可以理解为梯度消失;相反,如果样本空间分布稠密,类别空间分布稀疏,那么反向传播造成的误差就会使得误差在样本空间中无法收敛,瞬间爆炸有木有。