深度学习--Batch_Normlization

最新推荐文章于 2024-07-22 10:24:10 发布

zshfeng

最新推荐文章于 2024-07-22 10:24:10 发布

阅读量3.4k

点赞数

分类专栏：深度学习文章标签：深度学习

本文链接：https://blog.csdn.net/zshfeng/article/details/77959530

版权

深度学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

本文探讨深度学习中的Batch Normalization（BN），解释BN是什么，如何进行反向传播，其作用，包括与权重尺度无关性。同时讨论了gamma和beta参数的作用，以及为何在激活前应用BN而非激活后。此外，还介绍了Caffe中BN层的实现细节。

摘要由CSDN通过智能技术生成

bn是什么？

神经网络激活函数前的输出进行 z-score,即减去batch均值,除以方差，然后再修正，最后再送进激活函数。

y = W T x + b y^= y - u δ y^= γ y^+ β z = m a x (0, y^)

$y=W^Tx+b \quad \hat y=\frac{y-u}{\delta}\quad \hat y=\gamma \hat y +\beta \quad z=max(0, \hat y)$
其中

γ $\gamma$ 和

β $\beta$ 需要学习。

bn反向传播？

bn作用有哪些？

推导一下，假设 $BN(wx)$ 为bn后的结果，显然给 $w$ 尺度缩放为 $\alpha w$ ，有 $BN(wx) = BN(\alpha wx)$ ，即bn后的结果与权重 $w$ 的尺度（大小）无关。进一步推导，

\partial B N ( α w x ) \partial x = \partial B N ( w x ) \partial x

$\frac{\partial BN( \alpha wx)}{\partial x} = \frac{\partial BN( wx)}{\partial x}$

\partial B N ( α w x ) \partial α w = 1 α \partial B N ( w x ) \partial w

$\frac{\partial BN( \alpha wx)}{\partial \alpha w} = \frac{1}{\alpha}\frac{\partial BN( wx)}{\partial w}$
即较大的ww将获得较小的梯度，这意味着weight的更新更加稳健了，较大的weight更新较少，较小的weight更新较大,具有正则化的效果。
1. 可以使用较大学习率，加速收敛，解决了反向传播中的梯度弥散和爆炸问题，同时使得weight的更新更加稳健。如果不同层的输出scale不一致，需要不同的学习率，通常用只有最小的那个学习率才能保证损失函数有效下降，bn把每层的scale保持一致，那么我们就可以直接使用较高的学习率进行优化。
2. 移除或使用较低的dropout。 dropout是常用的防止overfitting的方法，而导致overfit的位置往往在数据边界处，如果初始化权重就已经落在数据内部，overfit现象就可以得到一定的缓解。论文中最后的模型分别使用10%、5%和0%的dropout训练模型，与之前的40%-50%相比，可以大大提高训练速度。
3. 降低L2权重衰减系数。还是一样的问题，边界处的局部最优往往有几维的权重（斜率）较大，使用L2衰减可以缓解这一问题，现在用了Batch Normalization，就可以把这个值降低了，论文中降低为原来的5倍。

gamma和beta的作用

y = W T x + b y^= y - u δ y^1 = γ y^+ β z = m a x (0, y^1))

$y=W^Tx+b \quad \hat y=\frac{y-u}{\delta}\quad \hat y_1=\gamma \hat y +\beta \quad z=max(0, \hat y_1))$
简单理解下，如果令

γ=δ $\gamma =\delta$ 和

β=u $\beta =u$ ,那么

y^=y^1 $\hat y=\hat y_1$ ，即回到z-score之前。

β $\beta$ 是个偏移量,如果

β=0 $\beta =0$ ，则

y1 $y_1$ 在-1到0,和在0到1，各50%的几率，而所以relu只有一半的几率激活神经元，会导致模型更难训练（参考dropout率越大越难训练）。通过学习这个参数，来控制这个神经元的激活，更合理，这也解释了为什么可以移除或使用较低的dropout。

为什么不在激活后做bn,而在激活前做bn

貌似还存在争议，期待后续论文。

caffe中的bn实现

1) 输入归一化 x_norm = (x-u)/std, 其中u和std是个累计计算的均值和方差。
2)y=alpha×x_norm + beta，对归一化后的x进行比例缩放和位移。其中alpha和beta是通过迭代学习的。那么caffe中的bn层其实只做了第一件事。scale层做了第二件事。
3)可选参数定义在 src\caffe\proto\caffe.proto 中，共有3个：

message BatchNormParameter {
  // 如果为真，则使用保存的均值和方差，否则采用滑动平均计算新的均值和方差。
  //关于滑动平均，可以参考吴大大deep learning ai讲指数加权平均那节
  // 该参数缺省的时候，如果是测试阶段则等价为真，如果是训练阶段则等价为假。
  optional bool use_global_stats = 1;

  // 滑动平均的衰减系数，默认为0.999
  optional float moving_average_fraction = 2 [default = .999];

  // 分母附加值，防止除以方差时出现除0操作，默认为1e-5
  optional float eps = 3 [default = 1e-5];
}