什么是Batch Normalization？为什么要Batch Norm？以及Batch Norm的示例和可视化

爱代码的小黄人

于 2024-07-30 12:10:19 发布

阅读量518

点赞数 11

分类专栏：神经网络文章标签： batch 开发语言神经网络人工智能

本文链接：https://blog.csdn.net/weixin_44114030/article/details/140793087

版权

3 篇文章 0 订阅

订阅专栏

Batch Normalization（批量归一化）

Batch Normalization（批量归一化）是 2015年提出的方法，是一种用于加速深度神经网络训练并提高其稳定性的方法。

其主要思想是对每个mini-batch中的数据进行归一化，使得每个mini-batch的数据分布的均值为0，方差为1。

具体来说，Batch Normalization的过程包括以下几个步骤：

计算mini-batch的均值和方差：
对于一个mini-batch $B = \{x_1, x_2, ..., x_m\}$ ，首先计算该mini-batch的均值 $\mu_B$ 和方差 $\sigma_B^2$ ：

$\mu_B = \frac{1}{m} \sum_{i=1}^{m} x_i$

$\sigma_B^2 = \frac{1}{m} \sum_{i=1}^{m} (x_i - \mu_B)^2$
归一化：
使用计算得到的均值和方差对每个输入数据进行归一化处理：

$\hat{x}_i = \frac{x_i - \mu_B}{\sqrt{\sigma_B^2 + \epsilon}}$

这里， $\epsilon$ 是一个小的常数，用于防止分母为零。
缩放和平移：
归一化后的数据再进行缩放和平移，以恢复数据的表达能力。通过引入可学习的参数 $\gamma$ 和 $\beta$ ，实现如下变换：

$y_i = \gamma \hat{x}_i + \beta$

Batch Normalization的好处包括：

加速训练：通过减少内部协变量偏移（Internal Covariate Shift），Batch Normalization可以加速神经网络的训练过程，使得模型收敛速度更快。
稳定训练过程：通过将输入数据的分布规范化，可以减少梯度爆炸和梯度消失的问题，提高训练过程的稳定性。
减少对初始化的依赖：使用Batch Normalization可以使得网络对权重初始化不那么敏感，从而更容易训练出好的模型。

在实际应用中，Batch Normalization已成为深度学习模型中的一种标准技术，广泛应用于各类神经网络中，如卷积神经网络（CNN）和循环神经网络（RNN）。

对于给定的数据 $[1, 2, 3, 4, 5, 6, 23, 22, 30, 40, 64, 12, 39]$ ，我们将对其进行Batch Normalization，使其均值为0，方差为1。具体步骤如下：

计算均值 $\mu$ ：

$\mu = \frac{1 + 2 + 3 + 4 + 5 + 6 + 23 + 22 + 30 + 40 + 64 + 12 + 39}{13} = \frac{251}{13} \approx 19.31$
计算方差 $\sigma^2$ ：

$\sigma^2 = \frac{(1-19.31)^2 + (2-19.31)^2 + (3-19.31)^2 + \cdots + (39-19.31)^2}{13}$

计算每个数据点与均值的差的平方，并求和：

$\sum (x_i - \mu)^2 = (1-19.31)^2 + (2-19.31)^2 + (3-19.31)^2 + \cdots + (39-19.31)^2 = 8031.38$

然后，方差为：

$\sigma^2 = \frac{8031.38}{13} \approx 617.03$
计算标准差 $\sigma$ ：

$\sigma = \sqrt{617.03} \approx 24.84$
归一化：
对每个数据点 $x_i$ 进行归一化处理：

$\hat{x}_i = \frac{x_i - \mu}{\sigma}$

具体归一化结果如下：

$\begin{align*} \hat{x}_1 &= \frac{1 - 19.31}{24.84} \approx -0.74 \\ \hat{x}_2 &= \frac{2 - 19.31}{24.84} \approx -0.70 \\ \hat{x}_3 &= \frac{3 - 19.31}{24.84} \approx -0.66 \\ \hat{x}_4 &= \frac{4 - 19.31}{24.84} \approx -0.62 \\ \hat{x}_5 &= \frac{5 - 19.31}{24.84} \approx -0.58 \\ \hat{x}_6 &= \frac{6 - 19.31}{24.84} \approx -0.54 \\ \hat{x}_{23} &= \frac{23 - 19.31}{24.84} \approx 0.15 \\ \hat{x}_{22} &= \frac{22 - 19.31}{24.84} \approx 0.11 \\ \hat{x}_{30} &= \frac{30 - 19.31}{24.84} \approx 0.43 \\ \hat{x}_{40} &= \frac{40 - 19.31}{24.84} \approx 0.83 \\ \hat{x}_{64} &= \frac{64 - 19.31}{24.84} \approx 1.80 \\ \hat{x}_{12} &= \frac{12 - 19.31}{24.84} \approx -0.29 \\ \hat{x}_{39} &= \frac{39 - 19.31}{24.84} \approx 0.79 \\ \end{align*}$

通过这些步骤，我们将原始数据归一化，使其均值为0，方差为1。这就是Batch Normalization的基本操作过程。

左边为开始的数据，后面为Batch Norm之后的数据

左图为原始数据的柱状图，红色虚线表示数据的均值（Mean $\mu$ = 19.31），绿色虚线表示标准差范围（Mean + Std Dev $\sigma$ ）。
右图为归一化后的数据的柱状图，红色虚线表示归一化后的均值（Mean $\mu$ = 0），绿色虚线表示归一化后的标准差范围（Std Dev $\sigma$ = 1）。

通过这种可视化，我们可以清晰地看到数据在Batch Normalization处理前后的变化。

关注

专栏目录