Layer Normalization是什么-CSDN博客

本文链接：https://blog.csdn.net/weixin_51176105/article/details/134758603

层规范化（Layer Normalization）是一种在深度学习中常用的规范化技术，由 Jimmy Lei Ba 和 Jamie Ryan Kiros 等人于 2016 年提出。它的主要目的是帮助神经网络更快、更稳定地收敛。层规范化与其它规范化技术，如批量规范化（Batch Normalization）和组规范化（Group Normalization），有着相似的目的，但操作方式略有不同。

层规范化的工作原理如下：

操作对象：层规范化在单个样本的层级上进行操作，而非在批量（Batch）的层级。这意味着它对每个样本独立计算规范化参数（均值和标准差），而不是在整个批量的基础上。
计算方式：对于给定的样本，在其所有特征（或通道）上计算均值和标准差。然后，使用这些统计数据来规范化该样本的每个特征。
优点：层规范化特别适用于批量大小很小或变化较大的情况，因为它不依赖于批量大小。这使得它在处理诸如在线学习或强化学习等任务时非常有用，这些任务可能无法提供稳定的批量大小。

具体步骤

层规范化（Layer Normalization）对于给定样本的所有特征（或通道）进行规范化的具体步骤如下：

计算均值和标准差：
对于给定样本中的所有特征，计算这些特征的均值（mean）和标准差（standard deviation）。记均值为 $\mu$ ，标准差为 $\sigma$ 。均值的计算公式为：
$\mu = \frac{1}{N} \sum_{i=1}^{N} x_i$
其中， $N$ 是特征的总数， $x_i$ 是第 $i$ 个特征的值。标准差的计算公式为：
$\sigma = \sqrt{\frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^2}$
规范化特征：
使用计算得到的均值和标准差来规范化每个特征。对于每个特征值 $x_i$ ，规范化公式为：
$\hat{x}_i = \frac{x_i - \mu}{\sigma}$
这里， $\hat{x}_i$ 表示规范化后的特征值。
重新缩放和偏移：
通常，在规范化之后会引入两个可学习的参数：缩放因子（scale factor） $\gamma$ 和偏移因子（shift factor） $\beta$ 。这两个参数允许模型学习规范化数据的最佳表示。重缩放和偏移后的公式为：
$y_i = \gamma \hat{x}_i + \beta$
其中， $y_i$ 是最终的输出特征值。

这个过程确保了每个样本的特征都具有大致相同的均值和方差，从而帮助神经网络更容易学习和快速收敛。在实际的深度学习模型中，这些步骤通常都是自动执行的，其中 $\gamma$ 和 $\beta$ 是通过训练过程学习得到的。通过这种方式，层规范化可以提高网络对输入数据的规模和偏移的不变性，有助于改善模型在训练和泛化方面的表现。

层规范化在神经网络中的应用：

稳定性和收敛速度：通过规范化输入数据，层规范化有助于减少内部协变量偏移（Internal Covariate Shift），从而加速训练过程并提高模型的稳定性。
适用性广泛：层规范化广泛应用于各种网络结构，特别是在循环神经网络（RNNs）和变换器（Transformers）中非常有效。

使用层规范化（Layer Normalization）处理图像数据的一个例子可以是在深度学习模型，比如卷积神经网络（CNN）中，对图像进行分类处理的场景。假设我们有一个简单的CNN模型，我们可以在模型的一层或多层中应用层规范化。下面是一个简化的例子：

图像输入：
- 假设我们有一组彩色图像，每张图像的尺寸是 32x32 像素，有三个颜色通道（红、绿、蓝）。因此，每张图像的输入尺寸是 32x32x3。
构建卷积层：
- 图像首先通过一个或多个卷积层进行处理。卷积层会提取图像的特征，并生成多个特征图（feature maps）。
应用层规范化：
- 在卷积层之后，我们可以应用层规范化。层规范化会对每个特征图中的每个像素独立进行，计算特征图中所有像素的均值和标准差，并使用这些统计数据来规范化每个像素的值。
- 通常，层规范化会在每个卷积层之后应用，尤其是在较深的网络中，这有助于防止梯度消失或爆炸的问题，使得模型训练更加稳定。
后续层：
- 经过层规范化后的特征图可以被传递到后续的层（如其他卷积层、池化层、全连接层）进行进一步的处理。
最终输出：
- 经过多层处理后，最终的输出可以是一个类别向量，用于图像分类任务。

在PyTorch中，可以使用torch.nn.LayerNorm来实现层规范化。例如，在一个卷积层之后添加层规范化可以这样写：

import torch.nn as nn

# 定义卷积层
conv_layer = nn.Conv2d(in_channels=3, out_channels=16, kernel_size=3, stride=1, padding=1)

# 定义层规范化
# 假设特征图的尺寸为 [批量大小, 16, 32, 32]，则需要对每个32x32的特征图进行规范化
layer_norm = nn.LayerNorm([32, 32])

# 在模型中使用
# x 是输入图像
x = conv_layer(x)
x = layer_norm(x)

在这个例子中，卷积层提取了输入图像的特征，然后通过层规范化进行规范化，以帮助模型更稳定和高效地学习。

一些个人感悟

为什么他会这么做呢，因为LN更多使用在NLP，其中都是词向量，一般不会数值差距特别巨大，数值差距特别巨大也就不用LN了
其实就算是归一化后，也不一定就符合正态分布，因为数据量没大到那个地步，但是总归是让数据尽可能适中，每一层的数值范围都比较适中，所以每一层的梯度也比较适中，这样每一层都可以得到差不多的训练幅度，不然梯度从最后一层传到第一层，累积很久会变很大或很小