神经网络中的参数的初始化

最新推荐文章于 2023-07-27 11:23:52 发布

weixin_45268911

最新推荐文章于 2023-07-27 11:23:52 发布

阅读量1k

点赞数

文章标签：神经网络算法人工智能深度学习

本文链接：https://blog.csdn.net/weixin_45268911/article/details/107346473

版权

任何网络在训练之前，都需要经过参数初始化，在神经网络中，权重初始化方法对模型的收敛速度和性能有着至关重要的影响。因此，本文就来讨论一下常见的集中权重初始化方法。

将W初始化为0或同一常数
似乎在很多时候，我们都习惯将参数初始化为0 ，但在神经网络中，我们不仅不能都初始化为0，而且不能初始化为同一常数。

我们以这幅图为例来看，如果我们将W均初始化为同一常数（包括0），那么每个神经元都将在你的输入数据上做相同的操作（注意，不一定是所有的神经元都死亡，因为还有b），输出相同的值，并得到相同的梯度，然后将会用相同的方式更新，最后我们将会得到完全相同的神经元，这显然不是我们想要的，我们希望得到是不同的特征。
将W初始化为很小或很大的随机数
在否定了同一数值这种初始化形式后，人们又想到了应该将W初始化为一个随机数矩阵，这样就可以打破参数对称问题，但即使是随机数，也要注意，不能是过大或过小的随机数。
如果权值的初始值过大，每层输出的均值和标准差如下所示

    W = 1.0*np.random.randn(D,H)

在这里插入图片描述

由上图可看出，所有的tanh函数输出不是1就是-1，这意味着所有传递的数值都过于饱和了。因为w过大，正向传播后的数值就会变得非常大。那么在反向传播中计算的梯度就会趋向0，然后使得我们的网络无法工作，即使训练时间加长，损失函数也根本不会变，因为所有的神经元都饱和了，无法进行反向传播，权值得不到更新，也就是出现了梯度消失的现象；

如果权值的初始值过小，每层输出的均值和标准差如下所示

W = 0.01*np.random.randn(D,H)

在这里插入图片描述

由图片中可看出，一开始输入的均值是0，标准差是1，在前向传播的过程中，我们观察经过10层网络之后的情况，我们使用的是tanh函数，tanh函数关于原点对称的，所以均值会归于0左右；再看方差，一开始是1，在接下来的层中，逐步下降，很快降至0。分析柱状图，第一张是合理的，我们的数据处于-1到1之间，随后这些数据分布开始“坍塌”，最终只分布在0上。造成这种现象的原因是，输入X是小量数值，那么w的梯度也是小量数值，w*x的激活函数计算出的结果对梯度的叠加是无影响的，在反向传播过程中，通过链式法则不断的乘w，最终得到的梯度非常小，几乎为0，这时就出现了梯度弥散（消失）的问题。

W = np.random.randn(fan_in, fan_out) / np.sqrt(fan_in)

在这里插入图片描述

由此可以看出，每一层的分布都很好。但是这只适用于tanh函数，如果使用ReLU函数，每次实际上只有大约一半的神经元被激活，相当于只有一半的输入有效，所以在进行参数缩放的时候除以2。

W = np.random.randn(fan_in, fan_out) / np.sqrt(fan_in / 2)

关注