Batch Normalization的作用

结合资料,对于Batch Normalization有了一些自己的理解。

1.BN可以解决梯度消失的问题。

假设激活函数为sigmoid.
al=sigmoid(hl)=sigmoid(al1wl)
因为在反向传播中:
gw=galalhlhlw=galalhlhlal1al1hl1hl1w=...
如果 hl 非常大,根据sigmoid图像的特点,在两边值的导数几乎为0,只有中间y轴附近值导数值比较大。所以,经过若干次链式求导,最终 gw 接近为0,这就是梯度消失。
如果经过了Batch Normalization,可以使得每一层的 h 的均值为0,标准差为1,也就是数据集中在y轴附近,这样就使得梯度比较大,解决了梯度消失的问题。

2.BN可以解决每一层数据不稳定的问题。

在网络中有很多层,每一层的数据都要经过权重计算,如果权重大部分大于1的话,最后的数据可能非常大,如1.1100。如果权重大部分小于1的话,最后的数据可能非常小,如 0.9100 。BN也可以解决这个问题。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值