PyTorch笔记26--BN、LN、IN and GN

最新推荐文章于 2024-09-09 23:51:40 发布

三天没吃小孩了

最新推荐文章于 2024-09-09 23:51:40 发布

阅读量352

点赞数 7

分类专栏： PyTorch学习文章标签： pytorch 笔记人工智能

本文链接：https://blog.csdn.net/zjhzxsljl/article/details/136236917

版权

PyTorch学习专栏收录该内容

32 篇文章 0 订阅

订阅专栏

本文探讨了Normalization在深度学习中的重要性，特别是BatchNormalization(BN)、LayerNormalization(LN)、InstanceNormalization(IN)和GroupNormalization(GN)之间的区别，以及它们应对InternalCovariateShift(ICS)问题的方式。LN针对变长网络，IN在图像生成中更适用，而GN在小批量数据下提供更准确的估计，适用于大模型任务。

摘要由CSDN通过智能技术生成

为什么要Normalization

Internal Covariate Shift (ICS)：数据尺度/分布异常，导致训练困难

常见的Normalization--BN、LN、IN and GN

常见的Normalization

1. Batch Normalization（BN）

2. Layer Normalization（LN）

3. Instance Normalization（IN）

4. Group Normalization（GN）

相同点：

区别：均值和方差求取方式不同

Layer Normalization

起因：BN不适用于变长的网络，如RNN

思路：逐层计算均值和方差

注意事项：

1. 不再有running_mean和running_var

2. gamma和beta为逐元素的

nn.LayerNorm(
    normalized_shape, #该层特征形状
    eps=1e-05, #分母修正项
    elementwise_affine=True #是否需要affine transform
)

Instance Normalization

起因：BN在图像生成（Image Generation）中不适用

思路：逐Instance（channel）计算均值和方差

nn.InstanceNorm2d(
    num_features, #一个样本特征数量（最重要）
    eps=1e-05, #分母修正项
    momentum=0.1, #指数加权平均估计当前mean/var
    affine=False, #是否需要affine transform
    track_running_stats=False#是训练状态，还是测试状态
)

Group Normalization

起因：小batch样本中，BN估计的值不准

思路：数据不够，通道来凑

注意事项：

1. 不再有running_mean和running_var

2. gamma和beta为逐通道（channel）的

应用场景：大模型（小batch size）任务

nn.GroupNorm(
    num_groups, #分组数
    num_channels, #通道数（特征数）
    eps=1e-05, #分母修正项
    affine=True#是否需要affine transform
)

Normalization小结

BN、LN、IN和GN都是为了克服Internal Covariate Shift (ICS)

三天没吃小孩了

关注

7
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
PyTorch笔记26--BN、LN、IN and GN

Internal Covariate Shift (ICS)：数据尺度/分布异常，导致训练困难。
复制链接

扫一扫

专栏目录