batch normalization 为什么有效?

 

4.1 Normalization 的权重伸缩不变性

 

从两方面来看,

1、权重伸缩不变性可以有效地提高反向传播的效率

      主要体现在对x求导。

2.权重伸缩不变性还具有参数正则化的效果,可以使用更高的学习率。

     主要体现在对w求导。

    意思是,如果某一次更新使得w变得很大,则lambada系数一定很大,那么梯度就减小了。在一定程度上体现了参数正则化,

    不让参数过度增长。

 

4.2 Normalization 的数据伸缩不变性

 

 

 

 

另一种角度看,

前面是两个求导之间对比,下面这个角度是针对自己求导进行观察

当W很小的时候,其标准差也大不了哪去,比如W为0.0001,它的标准差能有多大呢?

当W很大的时候,那么它的标准差就有可能很大了,至少比W0.0001的时候大吧。

所以限制梯度体现在这里

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值