为什么要使用batch_norm:(Batch Norm 是一种神经网络层)

1. 使用原因:
        1. 实现每一层的输入归一化
        2. 改变数据分布-convariable shift:当训练分布和测试分布不同时,此时训练分布的不能用于测试,会分错。纠正错误的方法就是改变分布
        3. 此外,在学习过程中,层内的z值分布可能会不断变化。使用了BN后,至少方差和均值不变,学习会更稳定,每层可以独立与其他不同的层。
        4. 每个特征具有不同的值范围。如特征 x1 的值可能介于 1 到 5 之间,而特征 x2 的值可能介于 1000 到 99999 之间。确保所有特征值现在都处于相同的比例。
        5. 如果不进行bN:在梯度下降过程中,为了“移动指针”以获取损失,网络必须对一个权重及另一个权重进行较大的更新。 导致梯度下降轨迹沿一个维度来回振荡,需要更多的步骤才能达到最小值。    
        6. 如果能够以某种方式对来自每个前一层的activations进行归一化,那么梯度下降会在训练期间更好收敛。 这正是 Batch Norm 层所做的。    

2. 实际工作:

Batch Norm 只是插入在隐藏层和下一个隐藏层之间的另一个网络层。 它的工作是从第一个隐藏层获取输出并在将它们作为下一个隐藏层的输入传递之前对其进行标准化。    

3. 参数:两个可学习的参数, beta 和 gamma。

4. Batch Norm 层的计算:
        1. 激活:来自前一层的激活作为输入传递给 Batch Norm。数据中的每个特征都有一个激活向量。
        2. 计算均值和方差:每个激活向量分别计算 mini-batch 中所有值的均值和方差。
        3. 规范化:使用相应的均值和方差计算每个激活特征向量的归一化值。这些归一化值现在有零均值和单位方差。
        4. 规模和转移:这一步是 Batch Norm 引入的创新点。与要求所有归一化值的均值和单位方差为零的输入层不同,Batch Norm 允许将其值移动(到不同的均值)和缩放(到不同的方差)。它通过将归一化值乘以因子 gamma 并添加因子 beta 来实现此目的。这里是逐元素乘法,而不是矩阵乘法。创新点在于,这些因素不是超参数(即模型设计者提供的常数),而是网络学习的可训练参数。每个 Batch Norm 层都能够为自己找到最佳因子,因此可以移动和缩放归一化值以获得最佳预测。
        5. 移动平均线:Batch Norm 还保持对均值和方差的指数移动平均线 (EMA) 的运行计数。训练期间它只是计算这个 EMA,但不做任何处理。在训练结束时,它将该值保存为层状态的一部分,以在推理阶段使用。移动平均线计算使用由下面的 alpha 表示的标量“动量”。这是一个仅用于 Batch Norm 移动平均线的超参数,不应与优化器中使用的动量混淆。

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值