Group Normalization 论文理解

最新推荐文章于 2024-04-10 20:09:41 发布

JustForYouW

最新推荐文章于 2024-04-10 20:09:41 发布

阅读量778

点赞数

分类专栏： Based Algorithm 文章标签： Normalization optimize

本文链接：https://blog.csdn.net/wwwhp/article/details/87866822

版权

Based Algorithm 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Batch Normalization是一个里程碑式的工作，使得大量cnn可以正常训练，Kaiming He等人提出Group Normalization又做了进一步提升

paper：: Group Normalization
link：GN paper
code：引入GN实现训练的Mask-RCNN

摘要

文中提出一种新的CNN训练优化技术：
- BN现存问题：随着batch size的减小，由不准确的批量统计估计造成的BN的错误率上升；
- BN受限领域：由于计算mem的限制在detection、segmentation、video等领域模型的训练需要小batch size；
- 提出GN：GN以channel为group计算均值和方差，独立于batch size，在batch size小的时候优于BN，batch size大的时候和BN效果相似；

简介

由于BN对网络训练时候的batch size有要求所以引申出的问题是：在训练中引入BN时由于mem的限制需要在网络设计和batch size之间进行妥协；
GN是作为BN的简单代替方法提出的，不仅在视觉任务上适用，同时也可以在序列模型和生成模型上适用；

相关知识

模型主要是学习训练数据的分布，对输入数据进行normalization可以提升模型的训练速度；但是数据在经过一层layer的计算后会出现Internal Covariate Shift，即数据的分布会改变是的后续学习变得困难；
简单回顾一下BN的计算原理：
- Internal Covariate Shfit是指发生在模型内部的数据分布变化，Covariate Shift表示训练数据和测试数据存在的分布差异；
- batch normalization的含义是对一个batch中的数据进行normalization，假设输入数据为 $\times h \times w$ (会得到channel组数据)：
  - 首先求出数据的均值： $\mu _ { \beta } = \frac { 1 } { m } \sum _ { i = 1 } ^ { m } x _ { i }$
  - 然后求出数据的方差： $\sigma _ { \beta } ^ { 2 } = \frac { 1 } { m } \sum _ { i = 1 } m \left( x _ { i } - \mu _ { \beta } \right) ^ { 2 }$
  - 然后对数据进行归一化： $\widehat { x } _ { i } = \frac { x _ { i } - \mu _ { \mathcal { B } } } { \sqrt { \sigma _ { \mathcal { B } } ^ { 2 } + \epsilon } }$
  - 最后进行平移缩放计算： $\gamma \widehat { x } _ { i } + \beta$
- 如果对网络的输出做单纯归一化会破坏网络学习到的数据分布， $\gamma$ 和 $\beta$ 平移缩放参数是为了保证每一次计算出来的数据经过归一化后还可以保留学习到特征，但此时已经完成归一化操作；
由于batch的减小会batch统计数据产生很大影响因此后续提出一些不在batch维度做norm的方法：
- LN：在channel维度做norm；
- IN：方法和BN类似不过只在一个sample中做norm；

Group Normalization

GN算法构建思路：
- 常规的特征归一化计算公式：
  - $\hat { x } _ { i } = \frac { 1 } { \sigma _ { i } } \left( x _ { i } - \mu _ { i } \right)$
  - 其中 $\mu _ { i } = \frac { 1 } { m } \sum _ { k \in \mathcal { S } _ { i } } x _ { k } , \quad \sigma _ { i } = \sqrt { \frac { 1 } { m } \sum _ { k \in \mathcal { S } _ { i } } \left( x _ { k } - \mu _ { i } \right) ^ { 2 } + \epsilon }$ ， $\epsilon$ 是一个小常量
  - 在 $(N, C, H, W)$ tensor中 $\left( i _ { N } , i _ { C } , i _ { H } , i _ { W } \right)$
- BN计算过程： $\mathcal { S } _ { i } = \{ k | k _ { C } = i _ { C } \}$ 在 $(N, H, W)$ 维度做norm计算；
- LN计算过程： $\mathcal { S } _ { i } = \{ k | k _ { N } = i _ { N } \}$ 在 $(C, H, W)$ 维度做norm计算;
- BN计算过程： $\mathcal { S } _ { i } = \{ k | k_{ N } = i_{ N }, \quad k | k _ { C } = i _ { C } \}$ 在 $(H, W)$ 维度做norm计算;
- $\gamma \hat { x } _ { i } + \beta$ 通过线性变换来弥补表达能力可能的损失
- GN计算过程： $\mathcal { S } _ { i } = \{ k | k _ { N } = i _ { N } , \left\lfloor \frac { k _ { C } } { C / G } \right\rfloor = \left\lfloor \frac { i _ { C } } { C / G } \right\rfloor \}$ 在 $(C / G, H, W)$ 维度做norm计算
GN在tensorflow中的实现：

实验结果show

具体实验结果展示可见原文，在此不就不做额外展示啦~

总结

本文提出不利用batch维度的norm方式GN用来优化模型的训练，但是由于BN影响力太多目前许多先进的系统都为其设计了超参数，但是这个对于基于GN的模型来说可能不是最优的，后续可能会重新设计系统或者探索新的超参数；
文中展示了GN的LN以及IN的相关性，说明GN在序列模型和生成模型领域也适用，后续应该会对GN在这些领域的应用加强研究，同时作者提到还出探索GN在RL任务中学习表征的性能；

JustForYouW

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Group Normalization 论文理解

Batch Normalization是一个里程碑式的工作，使得大量cnn可以正常训练，Kaiming He等人提出Group Normalization又做了进一步提升paper：: Group Normalizationlink：GN papercode：引入GN实现训练的Mask-RCNN摘要文中提出一种新的CNN训练优化技术：BN现存问题：随着batch size的减小...
复制链接

扫一扫

专栏目录