数值稳定性:衰减(vanishing)和爆炸(explosion)
假设一个网络的第 层的输出为 。此时,如果层数 较大,则可能会出现数值衰减和爆炸。
举例:假设输入和所有层的权重参数都是标量,如果权重参数为0.2和5,那么第30层的输出为(衰减)和(爆炸)。类似,当层数较多时,梯度的计算也更容易出现衰减或者爆炸。
随机初始化模型参数:
为什么神经网络在训练前要随机初始化参数?能初始化成相同的值吗?
如果初始化为相同值,只要是使用连接层并且每个神经元的激活函数相同的网络,就会出现反向传播的梯度值相等,优化之后的参数值依然相等的问题,即只相当于一个隐藏单元在发挥作用。故不能。