目录
概述
批量归一化的本质目的:学习底部层的时候避免顶部层变化
所以只有在使用深层的网络结构的时候才会使用BN,浅层的如mlp效果不明显
优点:不会改变模型的精度,但是可以加速模型收敛
首先我们先明确引起变化的原因,是每一层的方差和均值的分布不同。所以我们要固定所有层的分布,尽量符合同一个分布。
批量归一化的作用原理:固定小批量里的均值和方差
1、首先求出均值和方差
2、再做额外的调整,输入的是实际数据xi,输出是归一化后的xi+1,其中gama和beta是可以学习的参数
作用过程:
1、作用在全连接层上时,作用在特征维,对每一列(每一个特征)进行处理,让这一个特征的所有数据均值为零方差为1。
2、作用在卷积层上时,是作用在通道维上面。具体点说,整个批量里所有的像素都是样本,即批量大小*高*宽是样本数,每个通道就是这个样本的一个特征,对这一个批量的一个特征进行批量归一化。是以1*1卷积层为例,得到的每个通道都是每个像素的一个特征。
源起及作用原理:
首先是有人发现这个批量归一化作用在神经网络中非常Work,然后最初的推断是减小了内部协方差转移,但是经过后来的计算,发现并没有(先work后解释??)后来的论文中指出,