对于多层的神经网络,使用tanh(x)的困难在于: 在(-2,2)的区间以外,y趋于平坦不变。除非输入x在(-2,2),否则y的导数很小,从而很难通过梯度下降更新权重w, 这种情况在层数多的情况下会更严重。从而造成梯度消失的问题。
梯度消失使得我们难以知道参数朝哪个方向移动能够改进代价函数,而梯度爆炸会使得学习不稳定,
激活函数tanh
最新推荐文章于 2024-05-15 15:43:40 发布
对于多层的神经网络,使用tanh(x)的困难在于: 在(-2,2)的区间以外,y趋于平坦不变。除非输入x在(-2,2),否则y的导数很小,从而很难通过梯度下降更新权重w, 这种情况在层数多的情况下会更严重。从而造成梯度消失的问题。
梯度消失使得我们难以知道参数朝哪个方向移动能够改进代价函数,而梯度爆炸会使得学习不稳定,