深度学习：Normalization

X-ocean

已于 2024-08-01 15:36:46 修改

阅读量433

点赞数 9

文章标签：深度学习人工智能

于 2024-01-16 10:43:32 首次发布

本文链接：https://blog.csdn.net/xieocean/article/details/135616376

版权

1. Batch Normalization

这是一种正则化方法，优点包括但不限于：

提高收敛速度
缓解过拟合，一定程度上可以起到替代dropout作用
缓解Internal Covariate Shift，即训练时由于所有参数都在更新，后面的层需要不断调整参数来适应前面层的参数变化。

我个人理解，其实就是对卷积层的输出做一个正则化，但是这样可能缺乏灵活性实际效果不好，因此又添加了可学习的两个参数来以一种可学习的方式“恢复”。

公式如下，对于神经网络的第l层，有

$Z^{[l]} = W^{[l]}A^{[l-1]}+b^{[l]} \\ \mu = \frac{1}{m}\sum^{m}_{i-1}Z^{[l](i)} \\ \sigma^2 = \frac{1}{m}\sum^{m}_{i-1}(Z^{[l](i)}-\mu)^2 \\ \tilde{Z}^{[l]} = \gamma \frac{Z^{[l]}-\mu}{\sqrt{\sigma^2+\epsilon}} + \beta \\ A^{[l]} = g^{[l]}(\tilde{Z}^{[l]})$

其中m代表batch数，γ和β都是可学习的参数。训练时，会去计算每个batch的μ和σ，但在实际测试中中，μ和σ应该用的都是全局的，在训练时会以动量更新等方式进行更新。

BN不适应的场景：

Batchsize较小时
训练集和测试集的均值方差较大时
对于RNN，同一batch下的输入数据长短可能不一致，这时无法正确使用BN层，只能使用layer normalization

2. Layer Normalization

模型优化之Layer Normalization - 知乎

BN并不适用于RNN等动态网络和batchsize较小的时候，产生原因均是因为计算归一化统计量时计算的样本数太少。而LN是一个独立于batch size的算法，所以无论样本数多少都不会影响参与LN计算的数据量，从而解决BN的两个问题。

BN和LN其实比较类似，BatchNorm是对一个batch-size样本内的每个特征做归一化，LayerNorm是对每个样本的所有特征做归一化（可以这样理解：以CV任务为例，对于一个(bz,c,h,w)，先reshape成(bz,chw)，再计算chw这个维度上数据的均值与标准差）。BN 的转换是针对单个神经元可训练的：不同神经元的输入经过再平移和再缩放后分布在不同的区间；而 LN 对于一整层的神经元训练得到同一个转换：所有的输入都在同一个区间范围内。如果不同输入特征不属于相似的类别（比如颜色和大小），那么 LN 的处理可能会降低模型的表达能力。