Batch Normalization详解和momentum参数理解

论文:https://arxiv.org/pdf/1502.03167.pdf

以下博客对batch Normalization的原理,优点和代码解析做了非常清晰的讲解: http://blog.csdn.net/hjimce/article/details/50866313

batch Normalization公式

注意:上式中的γβ是两个可以学习的参数(μ是求出的均值,σ是求出的标准差,ε是人为设置的防止分母为0),实际上当γ取标准差、β取均值的时候,γβ对x标准化的操作提供了逆向的重构。加这个逆向操作的原因是,标准化操作可能会影响该层的表征,所以batch normalization应该有能表示identity transform的能力,所以使用了这两个可以学习的参数来重构让BN层有identity表达的能力

batch Normalization对梯度的影响证明

batch Normalization之所以有用,是对于梯度的影响, 解决了梯度消失,梯度爆炸问题,以至于dropout,L1 L2正则甚至都可以被舍弃.以下来自知乎答主.

加上BN之前的梯度传播:

1.首先,对某层的前向传播过程有:

[公式]

2.针对该层的反向传播过程为(由于我们关

评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值