深度学习｜表示学习｜Layer Normalization 全面总结｜24

最新推荐文章于 2025-09-22 08:55:45 发布

原创最新推荐文章于 2025-09-22 08:55:45 发布 · 1k 阅读

CC 4.0 BY-SA版权

文章标签：

31 篇文章

订阅专栏

如是我闻：

Layer Normalization（层归一化）是一种用于深度学习的归一化方法，它的核心思想是在单个样本的所有神经元上计算均值和标准差，然后进行归一化，使得不同神经元的输出分布更稳定，从而加速训练，提高泛化能力。

与 Batch Normalization（批归一化）不同，Layer Normalization 不依赖 batch 维度，它适用于 RNN、Transformer、小 batch 训练、强化学习等场景。

在这里插入图片描述

	Batch Normalization (BN)	Layer Normalization (LN)
归一化维度	对 mini-batch 维度计算均值和标准差	对单个样本的所有神经元计算均值和标准差
适用于	CNN（计算机视觉任务）	RNN（自然语言处理）、Transformer、小 batch 训练
依赖 batch size	✅ 依赖 batch size，batch size 太小时效果不稳定	❌ 不依赖 batch size，适用于变长输入
计算方式	对 batch 里相同神经元的不同样本进行归一化	对单个样本的所有神经元归一化
计算代价	需要在 batch 维度统计均值和方差	计算量较小，对小 batch 友好

假设：

$\begin{bmatrix} 1.3 & 0.9 & 2.0 & 2.6 \\ 1.5 & 1.0 & 2.1 & 2.8 \\ 1.1 & 0.7 & 1.8 & 2.4 \end{bmatrix}$

计算 Batch Normalization：

计算每个神经元的均值（按列计算）：
$\mu = \begin{bmatrix} \frac{1.3+1.5+1.1}{3}, \quad \frac{0.9+1.0+0.7}{3}, \quad \frac{2.0+2.1+1.8}{3}, \quad \frac{2.6+2.8+2.4}{3} \end{bmatrix} = \begin{bmatrix} 1.3, 0.87, 1.97, 2.6 \end{bmatrix}$
计算标准差（按列计算）：
$\sigma = \begin{bmatrix} \sqrt{\frac{(1.3-1.3)^2 + (1.5-1.3)^2 + (1.1-1.3)^2}{3}}, \quad \sqrt{\frac{(0.9-0.87)^2 + (1.0-0.87)^2 + (0.7-0.87)^2}{3}}, \quad ... \end{bmatrix}$
归一化：
$x^i,j=xi,j−μjσj \hat{x}_{i,j} = \frac{x_{i,j} - \mu_j}{\sigma_j}$
对 batch 里所有样本按列归一化。

假设：

计算均值（对该样本的 4 个神经元计算均值）
$\mu = \frac{1.3 + 0.9 + 2.0 + 2.6}{4} = 1.7$
计算标准差
$\sigma = \sqrt{\frac{(1.3 - 1.7)^2 + (0.9 - 1.7)^2 + (2.0 - 1.7)^2 + (2.6 - 1.7)^2}{4}}$
$\sqrt{\frac{0.16 + 0.64 + 0.09 + 0.81}{4}} = \sqrt{0.425} \approx 0.65$
归一化
$x^i=xi−μσ \hat{x}_i = \frac{x_i - \mu}{\sigma}$
$x^=[1.3−1.70.65,0.9−1.70.65,2.0−1.70.65,2.6−1.70.65] \hat{x} = \left[ \frac{1.3 - 1.7}{0.65}, \quad \frac{0.9 - 1.7}{0.65}, \quad \frac{2.0 - 1.7}{0.65}, \quad \frac{2.6 - 1.7}{0.65} \right]$

$= [- 0.615, - 1.231, 0.462, 1.385]$

归一化后的数据会继续通过神经网络的后续层进行计算，比如：

全连接层（MLP）
- 归一化后的值会作为输入，经过权重变换和非线性激活函数（ReLU、Sigmoid）。
卷积层（CNN）
- 归一化后的特征会继续经过卷积运算，提取更高层次的特征。
RNN/Transformer
- 归一化后的数据可以作为输入到 LSTM 或 Transformer，防止梯度消失/爆炸。
自适应缩放（(\gamma) 和 (\beta)）
- 归一化后会乘以可学习参数 $γ\gamma$ 并加上 $β\beta$ ，以恢复模型的表达能力：
  $yi=γx^i+β y_i = \gamma \hat{x}_i + \beta$

✅ 适合：

❌ 不适合：

Layer Normalization 归一化的是单个样本的所有神经元，不依赖 batch size，适用于 NLP（RNN、Transformer）、强化学习等任务。
Batch Normalization 归一化的是 batch 内所有样本的相同神经元，主要用于 CNN 和大 batch 训练。
归一化后数据会继续传递到神经网络的下一层，并通过可学习参数 $γ\gamma$ 和 $β\beta$ 调整模型表达能力。