深度学习中的Normalization-附参考文献ris格式

参考文献ris格式下载链接:https://download.csdn.net/download/xiaohuilang6/15543138

1. Batch Normalization:(2015)

https://arxiv.org/pdf/1502.03167.pdf

2. Layer Normalization:(2016)

https://arxiv.org/pdf/1607.06450v1.pdf

LN用于RNN效果比较明显,但是在CNN上,不如BN

3. Instance Normalization:(2016)

https://arxiv.org/pdf/1607.08022.pdf

BN注重对每个batch进行归一化,保证数据分布一致,因为判别模型中结果取决于数据整体分布。

但是图像风格化中,生成结果主要依赖于某个图像实例,所以对整个batch归一化不适合图像风格化中,因而对HW做归一化。可以加速模型收敛,并且保持每个图像实例之间的独立。

4. Group Normalization:(2018)

https://arxiv.org/pdf/1803.08494.pdf

主要是针对Batch Normalization对小batchsize效果差,GNchannel方向分group,然后每个group内做归一化,算(C//G)*H*W的均值,这样与batchsize无关,不受其约束。

 

5. Switchable Normalization:(2019)

https://arxiv.org/pdf/1806.10779.pdf

自适配归一化方法:LN-BN-IN用权重学习。

第一,归一化虽然提高模型泛化能力,然而归一化层的操作是人工设计的。在实际应用中,解决不同的问题原则上需要设计不同的归一化操作,并没有一个通用的归一化方法能够解决所有应用问题;

第二,一个深度神经网络往往包含几十个归一化层,通常这些归一化层都使用同样的归一化操作,因为手工为每一个归一化层设计操作需要进行大量的实验。

6. Filter Response Normalization:(2020)

https://arxiv.org/pdf/1911.09737.pdf

目前主流的深度学习模型都会采用BN层(Batch Normalization)来加速模型训练以及提升模型效果,对于CNN模型,BN层已经上成为了标配。但是BN层在训练过程中需要在batch上计算中间统计量,这使得BN层严重依赖batch,造成训练和测试的不一致性,当训练batch size较小,往往会恶化性能。GNGroup Normalization)通过将特征在channel维度分组来解决这一问题,GNbatch size不同时性能是一致的,但对于大batch sizeGN仍然难以匹敌BN。这里我们要介绍的是谷歌提出的一种新的归一化方法FRN,和GN一样不依赖batch,但是性能却优于BNGN

本文的主要工作如下:

FRN 是一种 pre-channel 的归一化方法,提升了准确率
提出 TLU ,在大的 batchsize 上表现超过了 BN ,是 FRN 的一部分
 
归一化层 FRN Filter Response Normalization )和激活层 TLU Thresholded Linear Unit

 

这里γβ是可学习的参数

FRN缺少去均值的操作,这可能使得归一化的结果任意地偏移0,如果FRN之后是ReLU激活层,可能产生很多0值,这对于模型训练和性能是不利的。为了解决这个问题,FRN之后采用的阈值化的ReLU,即TLU

这里τ一个可学习的参数。论文中发现FRN之后采用TLU对于提升性能是至关重要的。

其中FRN的操作是(H, W)维度上的(像IN),即对每个样例的每个channel单独进行归一化,这里 x 就是一个N维度(HxW)的向量,所以FRN没有BN层对batch依赖的问题。BN层采用归一化方法是减去均值然后除以标准差,而FRN却不同,这里没有减去均值操作,公式中v2x 的二次范数的平均值。这种归一化方式类似BN可以用来消除中间操作(卷积和非线性激活)带来的尺度问题,有助于模型训练。 公式里的是一个很小的正常量,以防止除0FRN是在H,W两个维度上归一化,一般情况下网络的特征图大小N=HxW较大,但是有时候可能会出现1x1的情况,比如InceptionV3VGG网络,此时就比较关键,下图给出了当N=1时不同下归一化的结果

参考文献:

  1. Sergey Ioffe, Christian Szegedy. Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift. 32nd International Conference on Machine Learning(ICML), July 6-11, 2015, pp. 448-456.
  2. Jimmy Lei Ba, Jamie Ryan Kiros, Geoffrey E. Hinton. Layer Normalization. arXiv:1607.06450, 2016.
  3. Dmitry Ulyanov, Andrea Vedaldi, Victor Lempitsky. Instance Normalization: The Missing Ingredient for Fast Stylization. arXiv:1607.08022, 2016.
  4. Yuxin Wu, Kaiming He. Group Normalization. International Journal of Computer Vision, 2020, 128(3): 742-755.
  5. Ping Luo, Jiamin Ren, Zhanglin Peng. Differentiable learning-to-normalize via switchable normalization. 7th International Conference on Learning Representations(ICLR), May 6-9, 2019.
  6. Singh Saurabh, Krishnan Shankar. Filter Response Normalization Layer: Eliminating Batch Dependence in the Training of Deep Neural Networks. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR), June 14-19, 2020, pp. 11234-11243. DOI: 10.1109/CVPR42600.2020.01125.

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值