batch normalization 为什么有效？

最新推荐文章于 2024-05-24 01:22:58 发布

zzzz_123123

最新推荐文章于 2024-05-24 01:22:58 发布

阅读量170

点赞数

分类专栏：机器学习文章标签： batch normal

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zzzz_123123/article/details/103198376

版权

机器学习专栏收录该内容

12 篇文章 0 订阅

订阅专栏

4.1 Normalization 的权重伸缩不变性

从两方面来看，

1、权重伸缩不变性可以有效地提高反向传播的效率。

主要体现在对x求导。

2.权重伸缩不变性还具有参数正则化的效果，可以使用更高的学习率。

主要体现在对w求导。

意思是，如果某一次更新使得w变得很大，则lambada系数一定很大，那么梯度就减小了。在一定程度上体现了参数正则化，

不让参数过度增长。

4.2 Normalization 的数据伸缩不变性

另一种角度看，

前面是两个求导之间对比，下面这个角度是针对自己求导进行观察

当W很小的时候，其标准差也大不了哪去，比如W为0.0001，它的标准差能有多大呢？

当W很大的时候，那么它的标准差就有可能很大了，至少比W0.0001的时候大吧。

所以限制梯度体现在这里

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。