BatchNorm、LayerNorm、GroupNorm

just do it now

已于 2022-04-14 17:35:28 修改

阅读量1k

点赞数 1

分类专栏：深度学习文章标签：深度学习

于 2022-04-13 15:21:42 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yaohaishen/article/details/124148651

版权

深度学习专栏收录该内容

62 篇文章 6 订阅

订阅专栏

BatchNorm是对不同样本间的同一维特征做归一化，即标准化某一特征整体的分布
LayerNorm是对同一样本的不同维特征间做归一化，即标准化某一样本特征的分布

它们的出发点都是让该层参数稳定下来，避免梯度消失或者梯度爆炸，方便后续的学习。但是也有侧重点。

一般来说，如果你的特征依赖于不同样本间的统计参数，那BN更有效。因为它抹杀了不同特征之间的大小关系，但是保留了不同样本间的大小关系。（CV领域）

而在NLP领域，LN就更加合适。因为它抹杀了不同样本间的大小关系，但是保留了一个样本内不同特征之间的大小关系。对于NLP或者序列任务来说，一条样本的不同特征，其实就是时序上字符取值的变化，样本内的特征关系是非常紧密的。

在CV中常常使用BN，它是在NHW维度进行了归一化，而Channel维度的信息原封不动，因为可以认为在CV应用场景中，数据在不同channel中的信息很重要，如果对其进行归一化将会损失不同channel的差异信息。

而NLP中不同batch样本的信息关联性不大，而且由于不同的句子长度不同，强行归一化会损失不同样本间的差异信息，所以就没在batch维度进行归一化，而是选择LN，只考虑的句子内部维度的归一化。可以认为NLP应用场景中一个样本内部维度间是有关联的，所以在信息归一化时，对样本内部差异信息进行一些损失，反而能降低方差。

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
BatchNorm、LayerNorm、GroupNorm

BatchNorm是对不同样本间的同一维特征做归一化，即标准化某一特征整体的分布LayerNorm是对同一样本的不同维特征间做归一化，即标准化某一样本特征的分布
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。