Batch Normalization层的均值和方差的shape?

BN层的均值和标准差的shape是什么样子的?
首先,BN的工作原理是:
# t is the incoming tensor of shape [B, H, W, C]
# mean and stddev are computed along 0 axis and have shape [H, W, C]
mean = mean(t, axis=0)
stddev = stddev(t, axis=0)
for i in 0..B-1:
  out[i,:,:,:] = norm(t[i,:,:,:], mean, stddev)

可以看到,均值和方差是[H, W, C]的样子,只在B这个维度上做gather。

但是,Conv层有一个特点,那就是权重共享,卷积核的shape是[h,w,c]的,这并不是全连接的(不是每个像素都有单独的权重),这个卷积核会划过整个图像,因此,图像处理中的BN操作,也就没有理由针对每个像素单独设计,而是也采用和卷积类似的共享参数方法:
# t is still the incoming tensor of shape [B, H, W, C]
# but mean and stddev are computed along (0, 1, 2) axes and have just [C] shape
mean = mean(t, axis=(0, 1, 2))
stddev = stddev(t, axis=(0, 1, 2))
for i in 0..B-1, x in 0..H-1, y in 0..W-1:
  out[i,x,y,:] = norm(t[i,x,y,:], mean, stddev)

换句话说,均值和方差的形状实际上是[C]这样的,[B,H,W]三个维度均需要gather。

以上结论来自stack-overflow.

### Layer NormalizationBatch Normalization 的区别 #### 定义与计算方式 Batch Normalization 是一种通过标准化每批次数据来加速神经网络训练的技术。具体来说,在前向传播过程中,对于每一中的激活值,BN 计算该批样本的均值方差,并据此对输入进行归一化处理[^4]。 相比之下,Layer Normalization 对单一样本的所有特征维度执行规范化操作,而不是基于批量统计信息。LN 考虑的是同一时间步或序列位置上的所有隐藏单元的状态分布情况[^2]。 ```python import torch.nn as nn # 批量归一化示例 batch_norm = nn.BatchNorm1d(num_features=hidden_size) # 级归一化示例 layer_norm = nn.LayerNorm(normalized_shape=[sequence_length, hidden_size]) ``` #### 序列模型适应性 由于 BN 需要依赖于整个 mini-batch 中的数据来进行参数估计,因此当 batch size 较小时效果会受到影响。而在自然语言处理等领域常见的 RNN/LSTM/GRU 等结构中,不同长度的时间序列可能导致难以找到合适的 batch 组合[^3]。 而 LN 不受 batch 大小的影响,可以更好地应用于变长输入的任务上,比如文本生成、机器翻译等场景下表现更为稳定可靠。 #### 并行计算友好度 BN 可以利用 GPU 上高效的矩阵运算实现快速并行化,因为其主要涉及按通道方向求平均数标准差的操作。然而这同时也意味着它不适合那些无法轻易获得大规模并行性的环境,例如分布式设置下的异构硬件平台。 相反,LN 更容易移植到各种设备之上,因为它只涉及到沿着特定轴(通常是最后一个轴对应着特征维)做简单的线性变换,易于部署在资源受限条件下运行的小型嵌入式系统里。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值