定义神经网络
首先,针对一个四层的神经网络如下图,不同情况下进行0初始化;
权重w初始化为0
如果权重w被初始化为0,则first hidden layer到output layer第一次计算全部为b;然后,再进行权重和偏差使用梯度下降算法更新时,
因为每一层的神经元的网络结构一致(指的是线性计算方法和激活函数选取)则正向计算时,每一层的神经元求得的结构一致均是b; 进行梯度下降算法权重和偏差更新时,gradient一般不同(这里取决于不同的损失函数以及网络模型设计),(如果相同,上面的例子中,只需要激活函数的导数为零,或者没有偏差变量并且下降变化量相同,每一次更新之后均是一样的,也就没有任何训练的意义。
梯度等于0)如果权重和偏差更新正常,则一般0初始化是可以的。
所以一般不能将权重初始化为0,防止出现训练失败;