为什么权重矩阵需要初始化?

为什么权重矩阵需要初始化?
参考网站网址:https://ph0en1xgseek.github.io/2018/02/22/Xavier/
这是一个深度学习领域遇到的老问题了,即使是现在,任何一个新提出的模型,无论是MLP、CNN、还是RNN,随着深度的加深,这两个问题变得尤为严重。
*
梯度消失是指在深度学习训练的过程中,梯度随着链式求导逐层传递逐层减小,最后趋近于0,导致对某些层的训练失效;
*
梯度爆炸与梯度消失相反,梯度随着链式求导逐层传递逐层增大,最后趋于无穷,导致某些层无法收敛;

出现梯度消失和梯度爆炸的问题主要是因为参数初始化不当以及激活函数选择不当造成的,这在之后我会做相应的笔记来讨论batch normalization与激活函数

简单理解:深度学习是将样本空间映射到类别样本空间,因此样本空间与类别空间之间的分布差异不能太大,若如此,比如样本空间分布稀疏,类别空间分布稠密,那么通过链式求导法则把类别空间误差传递到样本空间的误差就会显得微不足道,可以理解为梯度消失;相反,如果样本空间分布稠密,类别空间分布稀疏,那么反向传播造成的误差就会使得误差在样本空间中无法收敛,瞬间爆炸有木有。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值