批标准化Batch Normalization的作用、算法及优点

本文探讨了批量归一化(Batch Normalization)如何通过规范化输入值,保持梯度稳定,从而提高深度神经网络的学习效率,减少对学习率和超参数的依赖,减轻过拟合,并加速收敛过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. 作用

神经网络在训练的时候随着网络层数的加深,激活函数的输入值的整体分布逐渐往激活函数的取值区间上下限靠近,从而导致在反向传播时浅层的神经网络的梯度消失。而batch normalization的作用是通过规范化的手段,将越来越偏的分布拉回到标准化的分布,使得激活函数的输入值落在激活函数对输入比较敏感的区域,从而使梯度变大,加快学习收敛速度,避免梯度消失的问题。

2. 算法

在训练时记录每一个mini-batch的均值和方差,在测试时利用训练均值和方差的无偏估计来进行BN操作。

3. 优点

1)减少了对认为选择参数的依赖,在某些情况下可以取消Dropout和L2正则项参数。

2)减少了对学习率的要求,可以使用初始很大的学习率或较小的学习率,算法也能快速收敛。

3)不再使用局部响应归一化。

4)破坏原来的数据分布,缓解过拟合,防止每批数据中某一样本经常被挑到,有助于提高精度。

5)减少梯度消失,加快收敛速度。

### 手动实现 Batch Normalization 算法 为了更好地理解并手动实现 Batch Normalization (BN),需要先了解其工作原理。BN通过减少内部协变量转移来加速训练过程,使每一层输入分布更加稳定[^1]。 #### 计算均值和方差 对于给定的小批量数据 \( X \in R^{m\times n} \),其中\( m \)表示样本数量而\( n \)代表特征维度,在前向传播期间计算该批次的均值和标准偏差: \[ \mu_B = \frac{1}{m}\sum_{i=1}^m x_i \] \[ \sigma_B^2=\frac{1}{m}\sum_{i=1}^mx_i-\mu_B)^2\] 这里 \( \mu_B \) 和 \( \sigma_B^2 \) 分别对应于当前批次中的平均数和方差。 #### 归一化处理 接着利用上述统计量对原始激活值做变换得到新的输出: \[ \hat{x}_i=(x_i−μ_B)/(\sqrt{\sigma_B^2+\epsilon})\] 这里的 \( \epsilon \) 是一个小常数值用于防止除零错误;通常设置为 1e-8 或者更小一些。 #### 缩放和平移操作 为了让模型拥有足够的表达能力,引入两个可学习参数 γ(缩放因子) 和 β(偏置项): \[ y_i =γ*\hat{x}_i+β \] 这两个额外参数允许网络恢复任何可能被破坏掉的信息,并且可以看作是对归一化的逆运算。 下面是 Python 中的手动实现代码示例: ```python import numpy as np def batch_norm(X, gamma, beta, eps=1e-5): N, D = X.shape # Step 1: Calculate mean over mini-batch mu = np.mean(X, axis=0) # Step 2: Subtract mean from every training example X_mu = X - mu # Step 3: Calculate variance over mini-batch var = np.var(X_mu, axis=0) # Step 4: Get standard deviation and add epsilon to avoid division by zero std_inv = 1. / np.sqrt(var + eps) # Step 5: Normalize the data X_hat = X_mu * std_inv # Step 6: Scale and shift using learned parameters Gamma & Beta out = gamma * X_hat + beta cache = (X_hat, mu, var, std_inv, gamma, beta) return out, cache ``` 此函数实现了完整的 BN 过程,包括求解均值、中心化、计算方差、标准化以及最后应用线性转换。注意当 `training=False` 时,则应使用全局统计数据而不是每一批次的数据来进行预测阶段的操作[^2]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值