【初始化为0为啥不行】深度学习为啥不能初始化为0以及初始化为0的各种情况表现

最新推荐文章于 2024-06-11 15:55:20 发布

Gogery1997

最新推荐文章于 2024-06-11 15:55:20 发布

阅读量1.9k

点赞数 2

文章标签：深度学习 0初始化神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44224198/article/details/103188645

版权

定义神经网络

首先，针对一个四层的神经网络如下图，不同情况下进行0初始化；在这里插入图片描述

权重w初始化为0

如果权重w被初始化为0，则first hidden layer到output layer第一次计算全部为b；然后，再进行权重和偏差使用梯度下降算法更新时，
在这里插入图片描述
因为每一层的神经元的网络结构一致（指的是线性计算方法和激活函数选取）则正向计算时，每一层的神经元求得的结构一致均是b; 进行梯度下降算法权重和偏差更新时，gradient一般不同（这里取决于不同的损失函数以及网络模型设计），（如果相同，上面的例子中，只需要激活函数的导数为零，或者没有偏差变量并且下降变化量相同，每一次更新之后均是一样的，也就没有任何训练的意义。
梯度等于0）如果权重和偏差更新正常，则一般0初始化是可以的。
所以一般不能将权重初始化为0，防止出现训练失败；

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
【初始化为0为啥不行】深度学习为啥不能初始化为0以及初始化为0的各种情况表现

定义神经网络首先，针对一个四层的神经网络如下图，不同情况下进行0初始化；1、权重w和偏差b全部初始化为0如果权重w和偏差b全部被初始化为0，则first hidden layer到output layer第一次计算全部为0；然后，再进行权重和偏差使用梯度下降算法更新时，因为q为0，所以权重更新时变化量为0，但是偏差有所变化，而且每个偏差都不同，再次进行计算时所有层的输出结果理论上不再为0...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。