文献阅读 - Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

批归一化(Batch Normalization)通过减少内部协变漂移,加速深度网络训练,允许使用更大的学习率和更少的参数初始化约束。它在每个训练小批上对激活进行标准化,改善模型稳定性,降低对Dropout的依赖,并能使用饱和非线性函数。论文提出的方法解决了直接使用全局统计进行标准化导致的计算难题,转而使用小批统计,避免了全训练集的协方差矩阵计算和SVD运算,提高了训练效率。
摘要由CSDN通过智能技术生成

(in editing)

参考文献:Ioffe S , Szegedy C . Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift[J]. 2015.

摘要(Abstract)

由于训练过程中各层输入的分布随前一层参数的变化而变化,使得深度神经网络的训练变得复杂,同时也导致学习率较低、初始参数需要仔细调整、使用饱和非线性函数训练模型异常困难。这一现象被称为内部协变漂移(internal covariate shift,ICS)。

本文通过将标准化(normalization)作为模型体系结构的一部分,对每个训练小批(minibatch)进行标准化来解决该问题。批标准化模型可以适当增大学习率(learning rate)、放宽初始参数、甚至无需参数丢弃(dropout)。批标准化模型预测准确度(accuracy)达到原始模型准确度时,训练步数仅为原始模型的7%。

1 引言(Introduction)

考虑一复合网络:

l = F 2 ( F 1 ( u , Θ 1 ) , Θ 2 ) l = F_2 \left( F_1 \left( u, \Theta_1 \right), \Theta_2 \right) l=F2(F1(u,Θ1),Θ2)

F 1 F_1 F1的输出作为 F 2 F_2 F2的输入 x = F 1 ( u , Θ 1 ) \mathbf{x} = F_1 \left( u, \Theta_1 \right) x=F1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值