(in editing)
参考文献:Ioffe S , Szegedy C . Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift[J]. 2015.
摘要(Abstract)
由于训练过程中各层输入的分布随前一层参数的变化而变化,使得深度神经网络的训练变得复杂,同时也导致学习率较低、初始参数需要仔细调整、使用饱和非线性函数训练模型异常困难。这一现象被称为内部协变漂移(internal covariate shift,ICS)。
本文通过将标准化(normalization)作为模型体系结构的一部分,对每个训练小批(minibatch)进行标准化来解决该问题。批标准化模型可以适当增大学习率(learning rate)、放宽初始参数、甚至无需参数丢弃(dropout)。批标准化模型预测准确度(accuracy)达到原始模型准确度时,训练步数仅为原始模型的7%。
1 引言(Introduction)
考虑一复合网络:
l = F 2 ( F 1 ( u , Θ 1 ) , Θ 2 ) l = F_2 \left( F_1 \left( u, \Theta_1 \right), \Theta_2 \right) l=F2(F1(u,Θ1),Θ2)
将 F 1 F_1 F1的输出作为 F 2 F_2 F2的输入 x = F 1 ( u , Θ 1 ) \mathbf{x} = F_1 \left( u, \Theta_1 \right) x=F1