训练学习系统的一个主要假设是在整个训练过程中输入分布是保持不变的。对于简单地将输入数据映射到某些适当输出的线性模型,这种条件总是能满足的,但在处理由多层叠加而成的神经网络时,情况就不一样了。
在这样的体系结构中,每一层的输入都受到前面所有层参数的影响(随着网络变得更深,对网络参数的小变化会被放大),因此,在一层内的反向传播步骤中所做的一个小的变化可以产生另一层输入的一个巨大变化,并在最后改变特征的映射分布。在训练过程中,每一层都需要不断地适应前一层得到的新分布,这就减慢了收敛速度。
批标准化克服了这一问题,同时减少了训练过程中内层的协方差移位(由于训练过程中网络参数的变化而导致的网络激活分布变化)
本文将讨论以下内容
批标准化如何减少内部协方差移位,如何改进神经网络的训练。
如何在PyTorch中实现批标准化层。
一些简单的实验展示了使用批标准化的优点。
减少内部协方差移位
减少神经网络内部协方差移位的不良影响的一种方法是对层输入进行归一化,这个操作不仅使输入具有相同的分布,而且还使每个输入都白化(白化是对原始数据x实现的一种变换,使变换之后数据的协方差矩阵为单位阵),该方法是由一些相关研究提出的,这些研究表明,如果对网络的输入进行白化,则网络训练收敛得更快,因此,增强各层输入的白化是网络的一个理想特性。
然而,每一层输入的完全白化是昂贵的,并且不是完全可微的。批标准化通过考虑两个假设克服了这个问题:
我们将独立地对每个标量特征进行归一化(通过设置均值为0和方差为1),而不是对层的输入和输出的特征进行白化。
我们不使用整个数据集来进行标准化,而是使用mini-batch,每个mini-batch生成每个激活层的平均值和方差的估计值。
对于具有d维输入的层x = (x1, x2, ..xd),我们得到了以下归一化公式(对batch B的期望和方差进行计算):
然而,简单地标准化一个层的每个输入可能会改变层所能表示的内容。例如,对一个sigmoid的输入进行归一化会将其约束到非线性的线性状态,这样的行为对网络来说是不可取的,因为它会降低其非线性的能力(它会相当于一个单层网络)。