1. 不能全部初始化为0,这样所有的神经元数据更新都是一样的
2. 那初始化为Small random numbers呢?比如
当网络变深后也会有问题,如果初始的时候W都很小,那么随着深度的增大,每层的layer的output会越来越小,
而因为前向传播是np.sum(W*X),对权重W的导数X*dW有X这一乘积项,因为X很小,这就导致W的权重更新慢(梯度弥散),
而如果把初始权重都设置的比较大的话,使得会使得大多数的神经元处于饱和状态,
dW很小,权重更新也很缓慢(感觉这就是之前mnist不归一化train不下去的原因)
已经有paper研究到底初始化到什么范围内最合适
对于ReLU
http://www.jianshu.com/p/03009cfdf733
https://study.163.com/course/courseLearn.htm?courseId=1003223001#/learn/video?lessonId=1003846134&courseId=1003223001