DL基石-神经网络的批标准化

训练学习系统的一个主要假设是在整个训练过程中输入分布是保持不变的。对于简单地将输入数据映射到某些适当输出的线性模型,这种条件总是能满足的,但在处理由多层叠加而成的神经网络时,情况就不一样了。

在这样的体系结构中,每一层的输入都受到前面所有层参数的影响(随着网络变得更深,对网络参数的小变化会被放大),因此,在一层内的反向传播步骤中所做的一个小的变化可以产生另一层输入的一个巨大变化,并在最后改变特征的映射分布。在训练过程中,每一层都需要不断地适应前一层得到的新分布,这就减慢了收敛速度。

批标准化克服了这一问题,同时减少了训练过程中内层的协方差移位(由于训练过程中网络参数的变化而导致的网络激活分布变化)

本文将讨论以下内容
  • 批标准化如何减少内部协方差移位,如何改进神经网络的训练。

  • 如何在PyTorch中实现批标准化层。

  • 一些简单的实验展示了使用批标准化的优点。

减少内部协方差移位

减少神经网络内部协方差移位的不良影响的一种方法是对层输入进行归一化,这个操作不仅使输入具有相同的分布,而且还使每个输入都白化(白化是对原始数据x实现的一种变换,使变换之后数据的协方差矩阵为单位阵),该方法是由一些相关研究提出的,这些研究表明,如果对网络的输入进行白化,则网络训练收敛得更快,因此,增强各层输入的白化是网络的一个理想特性。

然而,每一层输入的完全白化是昂贵的,并且不是完全可微的。批标准化通过考虑两个假设克服了这个问题:

  • 我们将独立地对每个标量特征进行归一化(通过设置均值为0和方差为1),而不是对层的输入和输出的特征进行白化。

  • 我们不使用整个数据集来进行标准化,而是使用mini-batch,每个mini-batch生成每个激活层的平均值和方差的估计值。

对于具有d维输入的层x = (x1, x2, ..xd),我们得到了以下归一化公式(对batch B的期望和方差进行计算):

然而,简单地标准化一个层的每个输入可能会改变层所能表示的内容。例如,对一个sigmoid的输入进行归一化会将其约束到非线性的线性状态,这样的行为对网络来说是不可取的,因为它会降低其非线性的能力(它会相当于一个单层网络)。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值