批量归一化

最新推荐文章于 2024-06-19 17:17:32 发布

「已注销」

最新推荐文章于 2024-06-19 17:17:32 发布

阅读量1.1k

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/weixin_46161549/article/details/119003156

版权

深度学习专栏收录该内容

6 篇文章 2 订阅

订阅专栏

批量归一化的基本动机

神经网络训练过程的本质是学习数据分布，然而随着网络训练的进行，每个隐层的参数变化使得后一层的输入发生变化，从而每一批训练数据的分布也随之改变，致使网络在每次迭代中都需要拟合不同的数据分布，增大训练的复杂度以及过拟合的风险。

批量归一化可以看作在每一层输入和上一层输出之间加入了一个新的计算层，对数据的分布进行额外的约束，从而增强模型的泛化能力。

批量归一化(Batch Normalization)

批量归一化方法是针对每一批数据，在网络的每一层输入之前增加归一化处理（均值为0，标准差为1），将所有批数据强制在统一的数据分布下；

即对该层的任意一个神经元（假设为第 $k$ 维） $\overline{x}^k$ 采用如下公式：

$\overline{x}^k=\frac{x^k-E[x^k]}{\sqrt {Var[x^k]}}$ ，

其中 $x^k$ 为该层第 $k$ 个神经元的原始输入数据， $E[x^k]$ 为这一批输入数据在第 $k$ 个神经元的均值， $\sqrt {Var[x^k]}$ 为这一批数据在第 $k$ 个神经元的标准差。

批量归一化的局限

由于归一化之后的输入分布被强制为0均值和1标准差，批量归一化同时也降低了模型的拟合能力。以Sigmoid激活函数为例，批量归一化之后数据整体处于函数的非饱和区域，只包含线性变换，破坏了之前学习到的特征分布。

为了恢复原始数据分布，具体实现中引入了变量重构以及可学习参数 $\gamma$ 和 $\beta$ ：
$y^k=\gamma^k\overline{x}^k+\beta^k$ ，其中 $\gamma$ 和 $\beta$ 分别为输入数据分布的方差和偏差。

对于一般的网络，不采用批量归一化操作时， $\gamma$ 和 $\beta$ 两个参数高度依赖前面网络学习到的连接权重（对应复杂的非线性）；而在批量归一化操作中， $\gamma$ 和 $\beta$ 变成了该层的学习参数，仅用两个参数就可以恢复最优的输入数据分布，与之前网络层的参数解耦，从而更加有利于优化的过程，提高模型的泛化能力。

批量归一化应用于卷积神经网络

完整的归一化前向传导过程公式：

$\mu_b←\frac{1}{m}\sum_{i=1}^mx_i$ ，

$\sigma_b^2←\frac{1}{m}\sum_{i=1}^m(x_i-\mu_b)^2$ ，

$\overline{x}_i←\frac{x_i-\mu_b}{\sqrt {\sigma_b^2+\epsilon}}$ ,

$y_i←\gamma\overline{x}_i+\beta≡BN_{\gamma,\beta}(x_i)$ ，
考虑卷积神经网络的参数共享机制

每一个卷积核的参数在不同位置的神经元当中是共享的，因此也应该被一起归一化。

具体实现中，假设网络训练中每一批包含 $b$ 个样本，由一个卷积核生成的特征图的宽高分别为 $w$ 和 $h$ ，则每个特征图所对应的全部神经元个数为 $b * w * h$ ；利用这些神经元对应的所有输入数据，根据一组待学习的参数 $\gamma$ 和 $\beta$ 对每个输入数据进行批量归一化操作。如果有 $f$ 个卷积核，就对应 $f$ 个特征图和 $f$ 组不同的 $\gamma$ 和 $\beta$ 参数。

「已注销」

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
批量归一化

批归一化批量归一化的基本动机神经网络训练过程的本质是学习数据分布，然而随着网络训练的进行，每个隐层的参数变化使得后一层的输入发生变化，从而每一批训练数据的分布也随之改变，致使网络在每次迭代中都需要拟合不同的数据分布，增大训练的复杂度以及过拟合的风险。批量归一化(Batch Normalization)批量归一化方法是针对每一批数据，在网络的每一层输入之前增加归一化处理（均值为0，标准差为1），将所有批数据强制在统一的数据分布下，即对该层的任意一个神经元（假设为第kkk维）x‾k\overli
复制链接

扫一扫

专栏目录