深度学习中的Normalization-附参考文献ris格式

最新推荐文章于 2024-09-11 20:23:05 发布

小灰狼@花花

最新推荐文章于 2024-09-11 20:23:05 发布

阅读量1.6k

点赞数

分类专栏：深度学习文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/xiaohuilang6/article/details/114314286

版权

深度学习专栏收录该内容

2 篇文章

订阅专栏

参考文献ris格式下载链接：https://download.csdn.net/download/xiaohuilang6/15543138

1. Batch Normalization：（2015）

https://arxiv.org/pdf/1502.03167.pdf

2. Layer Normalization：（2016）

https://arxiv.org/pdf/1607.06450v1.pdf

LN用于RNN效果比较明显，但是在CNN上，不如BN。

3. Instance Normalization：（2016）

https://arxiv.org/pdf/1607.08022.pdf

BN注重对每个batch进行归一化，保证数据分布一致，因为判别模型中结果取决于数据整体分布。

但是图像风格化中，生成结果主要依赖于某个图像实例，所以对整个batch归一化不适合图像风格化中，因而对HW做归一化。可以加速模型收敛，并且保持每个图像实例之间的独立。

4. Group Normalization：（2018）

https://arxiv.org/pdf/1803.08494.pdf

主要是针对Batch Normalization对小batchsize效果差，GN将channel方向分group，然后每个group内做归一化，算(C//G)*H*W的均值，这样与batchsize无关，不受其约束。

5. Switchable Normalization：（2019）

https://arxiv.org/pdf/1806.10779.pdf

自适配归一化方法：LN-BN-IN用权重学习。

第一，归一化虽然提高模型泛化能力，然而归一化层的操作是人工设计的。在实际应用中，解决不同的问题原则上需要设计不同的归一化操作，并没有一个通用的归一化方法能够解决所有应用问题；

第二，一个深度神经网络往往包含几十个归一化层，通常这些归一化层都使用同样的归一化操作，因为手工为每一个归一化层设计操作需要进行大量的实验。

6. Filter Response Normalization：（2020）

https://arxiv.org/pdf/1911.09737.pdf

目前主流的深度学习模型都会采用BN层（Batch Normalization）来加速模型训练以及提升模型效果，对于CNN模型，BN层已经上成为了标配。但是BN层在训练过程中需要在batch上计算中间统计量，这使得BN层严重依赖batch，造成训练和测试的不一致性，当训练batch size较小，往往会恶化性能。GN（Group Normalization）通过将特征在channel维度分组来解决这一问题，GN在batch size不同时性能是一致的，但对于大batch size，GN仍然难以匹敌BN。这里我们要介绍的是谷歌提出的一种新的归一化方法FRN，和GN一样不依赖batch，但是性能却优于BN和GN。

本文的主要工作如下：

• FRN 是一种 pre-channel 的归一化方法，提升了准确率

• 提出了 TLU ，在大的 batchsize 上表现超过了 BN ，是 FRN 的一部分

归一化层 FRN （ Filter Response Normalization ）和激活层 TLU （ Thresholded Linear Unit ）

•这里的γ和β也是可学习的参数

FRN缺少去均值的操作，这可能使得归一化的结果任意地偏移0，如果FRN之后是ReLU激活层，可能产生很多0值，这对于模型训练和性能是不利的。为了解决这个问题，FRN之后采用的阈值化的ReLU，即TLU：

这里的τ是一个可学习的参数。论文中发现FRN之后采用TLU对于提升性能是至关重要的。

其中FRN的操作是(H, W)维度上的（像IN），即对每个样例的每个channel单独进行归一化，这里 x 就是一个N维度（HxW）的向量，所以FRN没有BN层对batch依赖的问题。BN层采用归一化方法是减去均值然后除以标准差，而FRN却不同，这里没有减去均值操作，公式中的v2是x 的二次范数的平均值。这种归一化方式类似BN可以用来消除中间操作（卷积和非线性激活）带来的尺度问题，有助于模型训练。公式里的是一个很小的正常量，以防止除0。FRN是在H,W两个维度上归一化，一般情况下网络的特征图大小N=HxW较大，但是有时候可能会出现1x1的情况，比如InceptionV3和VGG网络，此时就比较关键，下图给出了当N=1时不同下归一化的结果。

参考文献：

Sergey Ioffe, Christian Szegedy. Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift. 32nd International Conference on Machine Learning(ICML), July 6-11, 2015, pp. 448-456.
Jimmy Lei Ba, Jamie Ryan Kiros, Geoffrey E. Hinton. Layer Normalization. arXiv:1607.06450, 2016.
Dmitry Ulyanov, Andrea Vedaldi, Victor Lempitsky. Instance Normalization: The Missing Ingredient for Fast Stylization. arXiv:1607.08022, 2016.
Yuxin Wu, Kaiming He. Group Normalization. International Journal of Computer Vision, 2020, 128(3): 742-755.
Ping Luo, Jiamin Ren, Zhanglin Peng. Differentiable learning-to-normalize via switchable normalization. 7th International Conference on Learning Representations(ICLR), May 6-9, 2019.
Singh Saurabh, Krishnan Shankar. Filter Response Normalization Layer: Eliminating Batch Dependence in the Training of Deep Neural Networks. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR), June 14-19, 2020, pp. 11234-11243. DOI: 10.1109/CVPR42600.2020.01125.