为什么要使用batch_norm：（Batch Norm 是一种神经网络层）

本文链接：https://blog.csdn.net/weixin_45647721/article/details/125112634

批量归一化(BatchNorm)是深度学习中用于加速训练和提升模型稳定性的技术。其主要作用包括输入归一化、调整数据分布、稳定学习过程和优化梯度下降。BatchNorm层在隐藏层间操作，计算迷你批次的均值和方差以进行标准化，同时学习可训练的缩放因子γ和偏移因子β，允许网络自适应地调整归一化值。在训练期间，BatchNorm还维护均值和方差的指数移动平均，以供推理阶段使用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 使用原因：
        1. 实现每一层的输入归一化
        2. 改变数据分布-convariable shift：当训练分布和测试分布不同时，此时训练分布的不能用于测试，会分错。纠正错误的方法就是改变分布
        3. 此外，在学习过程中，层内的z值分布可能会不断变化。使用了BN后，至少方差和均值不变，学习会更稳定，每层可以独立与其他不同的层。
        4. 每个特征具有不同的值范围。如特征 x1 的值可能介于 1 到 5 之间，而特征 x2 的值可能介于 1000 到 99999 之间。确保所有特征值现在都处于相同的比例。
        5. 如果不进行bN：在梯度下降过程中，为了“移动指针”以获取损失，网络必须对一个权重及另一个权重进行较大的更新。导致梯度下降轨迹沿一个维度来回振荡，需要更多的步骤才能达到最小值。
        6. 如果能够以某种方式对来自每个前一层的activations进行归一化，那么梯度下降会在训练期间更好收敛。这正是 Batch Norm 层所做的。

2. 实际工作：

Batch Norm 只是插入在隐藏层和下一个隐藏层之间的另一个网络层。它的工作是从第一个隐藏层获取输出并在将它们作为下一个隐藏层的输入传递之前对其进行标准化。

3. 参数：两个可学习的参数， beta 和 gamma。

4. Batch Norm 层的计算：
        1. 激活：来自前一层的激活作为输入传递给 Batch Norm。数据中的每个特征都有一个激活向量。
        2. 计算均值和方差：每个激活向量分别计算 mini-batch 中所有值的均值和方差。
        3. 规范化：使用相应的均值和方差计算每个激活特征向量的归一化值。这些归一化值现在有零均值和单位方差。
        4. 规模和转移：这一步是 Batch Norm 引入的创新点。与要求所有归一化值的均值和单位方差为零的输入层不同，Batch Norm 允许将其值移动（到不同的均值）和缩放（到不同的方差）。它通过将归一化值乘以因子 gamma 并添加因子 beta 来实现此目的。这里是逐元素乘法，而不是矩阵乘法。创新点在于，这些因素不是超参数（即模型设计者提供的常数），而是网络学习的可训练参数。每个 Batch Norm 层都能够为自己找到最佳因子，因此可以移动和缩放归一化值以获得最佳预测。
        5. 移动平均线：Batch Norm 还保持对均值和方差的指数移动平均线 (EMA) 的运行计数。训练期间它只是计算这个 EMA，但不做任何处理。在训练结束时，它将该值保存为层状态的一部分，以在推理阶段使用。移动平均线计算使用由下面的 alpha 表示的标量“动量”。这是一个仅用于 Batch Norm 移动平均线的超参数，不应与优化器中使用的动量混淆。