理解 Batch Normalization

最新推荐文章于 2022-03-23 22:24:05 发布

置顶 zhwli

最新推荐文章于 2022-03-23 22:24:05 发布

阅读量296

点赞数 1

分类专栏：深度学习文章标签： BN Batch Normalization 深度学习批量归一化

本文链接：https://blog.csdn.net/zhiwei2coder/article/details/80259976

版权

深度学习专栏收录该内容

17 篇文章 0 订阅

订阅专栏

参考链接：
https://www.zhihu.com/question/38102762
https://zhuanlan.zhihu.com/p/26138673
https://blog.csdn.net/hjimce/article/details/50866313
https://blog.csdn.net/myarrow/article/details/51848285

###原理
BN的本质是解决了反向传播过程中的梯度消失问题。
####梯度消失/爆炸问题

前向传播： $h_{l+1} = W_lh_l$
反向传播：
梯度求解的一般形式 $\frac{\partial L}{\partial h_i} = \frac{\partial L}{\partial h_l}\frac{\partial h_l}{\partial h_{l-1}}...\frac{\partial h_{i+1}}{\partial h_i}$
$KaTeX parse error: No such environment: eqnarray at position 7: \begin{̲e̲q̲n̲a̲r̲r̲a̲y̲}̲ \frac{\parti…$
上式的结果为权重的连乘，我们知道： $0.9^{30} = 0.04$ , $1.1^{30} = 17.4$ ，这就解释了为什么会出现梯度消失和爆炸问题。

BN的实质是网络输出的变换。令x为某一卷积网络层的输出，则BN变换 $Y = B N (x)$ 如下：
$\bar x = \frac{1}{M}\sum_{i=i}^Mx_i$
$\sigma_x = \frac{1}{M}\sum_{i=i}^M(x_i-\bar x)^2$
$\hat x = \frac{x - \bar x}{\sqrt{\sigma_x + \epsilon}}$
$\gamma \hat x + \beta$

那么BN是如何解决梯度消失和爆炸问题的呢？
主要思想：解决scale对梯度的影响，让BN变换至少具有能恢复原始数据的能力。
$\frac{\partial Y_{l+1}}{\partial h_l} =\frac{\partial BN(h_{l+1})}{\partial h_l} = \frac{\partial BN(W_lh_l)}{\partial h_l} = \frac{\partial BN(\alpha W_lh_l)}{\partial h_l}$
不管参数变化多大，传回上一层的梯度 $\frac{\partial Y_{l+1}}{\partial h_l}$ 始终不变，不受尺度scale的影响。
$\frac{\partial Y_{l+1}}{\partial W_l} =\frac{\partial BN(h_{l+1})}{\partial W_l} = \frac{\partial BN(W_lh_l)}{\partial W_l} = \frac{1}{\alpha} \frac{\partial BN(\alpha W_lh_l)}{\partial W_l}$

对用于更新参数W的梯度 $\frac{\partial Y_{l+1}}{\partial W_l}$ ，如果 $W_l' = \alpha W_l$ , 则 $=\frac{1}{\alpha} grad(W)$ 。如果 $\alpha< 1$ ，则 $\frac{1}{\alpha} > 1$ 说明尺度较大的参数会获得比较小的梯度；相反，尺度较小的参数会获得比较大的梯度，使得整个网络的参数更新变得更加稳健（所以我们最后参数会趋向于同样大小？）

###面试常问问题

BN怎么回事？什么原理？
BN中有两个参数 $\gamma$ 和 $\beta$ 后的均值和方差在训练和预测的时候需要怎么处理？

BN中有两个参数 $\gamma$ 和 $\beta$ ，这个两个参数怎么回事，有什么需要注意的？
这两个参数是可学习的参数。（其实每个BN都包含两个这样的参数）
训练的时候记录每个mini-batch的均值 $\mu$ 和方差 $\sigma^2$ ，最后在测试的时候，用均值 $\mu$ 和方差 $\sigma^2$ 的无偏估计来计算。
（在pytorch中，一般用momentum来更新Inference时使用的均值 $\mu$ 和方差 $\sigma^2$ 。具体来说， $x_{new} = x * (1 - momentum) + momentim * x_t$
参考：https://pytorch.org/docs/stable/generated/torch.nn.BatchNorm2d.html）。

BN和Hisssian矩阵的关系

zhwli

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
理解 Batch Normalization

参考链接： https://zhuanlan.zhihu.com/p/26138673 https://blog.csdn.net/hjimce/article/details/50866313 https://blog.csdn.net/myarrow/article/details/51848285原理BN的本质是解决了反向传播过程中的梯度消失问题。梯度消失/爆炸问题...
复制链接

扫一扫