深度学习入门之Batch Normalization

赵孝正

已于 2022-05-11 08:43:04 修改

阅读量1.1k

点赞数 2

分类专栏：深度学习入门文章标签：深度学习 batch 人工智能

于 2022-03-04 14:41:22 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46713695/article/details/123276323

版权

深度学习入门专栏收录该内容

7 篇文章 10 订阅

订阅专栏

目录

Batch Normalization 的算法

Batch Normalization的评估

Batch Normalization 的算法

Batch Normalization（下文简称 Batch Norm）是 2015 年提出的方法。Batch Norm 虽然是一个问世不久的新方法，但已经被很多研究人员和技术人员广泛使用。实际上，看一下机器学习竞赛的结果，就会发现很多通过使用这个方法而获得优异结果的例子。

为什么 Batch Norm 这么惹人注目呢？因为 Batch Norm 有以下优点。

可以使学习快速进行（可以增大学习率）。
不那么依赖初始值（对于初始值不用那么神经质）。
抑制过拟合（降低 Dropout 等的必要性）。

考虑到深度学习要花费很多时间，第一个优点令人非常开心。另外，后两点也可以帮我们消除深度学习的学习中的很多烦恼。

如前所述，Batch Norm 的思路是调整各层的激活值分布使其拥有适当的广度。为此，要向神经网络中插入对数据分布进行正规化的层，即 Batch Normalization 层（下文简称 Batch Norm 层），如图 6-16 所示。

图 6-16　使用了 Batch Normalization 的神经网络的例子（Batch Norm 层的背景为灰色）

Batch Norm，顾名思义，以进行学习时的 mini-batch 为单位，按 mini-batch 进行正规化。具体而言，就是进行使数据分布的均值为 0、方差为 1 的正规化。用数学式表示的话，如下所示。

这里对 mini-batch 的 m 个输入数据的集合求均值和方差。然后，对输入数据进行均值为 0、方差为 1（合适的分布）的正规化。式（6.7）中的 ε 是一个微小值（比如，10e-7等），它是为了防止出现除以 0 的情况。

式（6.7）所做的是将 mini-batch 的输入数据变换为均值为 0、方差为 1 的数据，非常简单。通过将这个处理插入到激活函数的前面（或者后面），可以减小数据分布的偏向。

接着，Batch Norm 层会对正规化后的数据进行缩放和平移的变换，用数学式可以如下表示。

这里，γ 和 β 是参数。一开始 γ = 1，β = 0，然后再通过学习调整到合适的值。

上面就是 Batch Norm 的算法。这个算法是神经网络上的正向传播。如果使用第 5 章介绍的计算图，Batch Norm 可以表示为图 6-17。

图 6-17　Batch Normalization 的计算图

Batch Normalization的评估

现在我们使用 Batch Norm 层进行实验。首先，使用 MNIST 数据集，观察使用Batch Norm 层和不使用 Batch Norm 层时学习的过程会如何变化，结果如图 6-18 所示。

图 6-18　基于 Batch Norm 的效果：使用 Batch Norm 后，学习进行得更快了

从图 6-18 的结果可知，使用 Batch Norm 后，学习进行得更快了。接着，给予不同的初始值尺度，观察学习的过程如何变化。图 6-19 是权重初始值的标准差为各种不同的值时的学习过程图。

图 6-19　图中的实线是使用了 Batch Norm 时的结果，虚线是没有使用 Batch Norm 时的结果：图的标题处标明了权重初始值的标准差

我们发现，几乎所有的情况下都是使用 Batch Norm 时学习进行得更快。实际上，在不使用 Batch Norm 的情况下，如果不赋予一个尺度好的初始值，学习将完全无法进行。

综上，通过使用 Batch Norm，可以推动学习的进行。并且，对权重初始值变得健壮（“对初始值健壮”表示不那么依赖初始值）。Batch Norm 具备了如此优良的性质，一定能应用在更多场合中。

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
深度学习入门之Batch Normalization

Batch Normalization 的算法Batch Normalization（下文简称 Batch Norm）是 2015 年提出的方法。Batch Norm 虽然是一个问世不久的新方法，但已经被很多研究人员和技术人员广泛使用。实际上，看一下机器学习竞赛的结果，就会发现很多通过使用这个方法而获得优异结果的例子。为什么 Batch Norm 这么惹人注目呢？因为 Batch Norm 有以下优点。可以使学习快速进行（可以增大学习率）。不那么依赖初始值（对于初始值不用那么神经质）。抑
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。