深度学习normalization是干什么的

yxx122345

于 2024-08-25 13:46:01 发布

阅读量328

点赞数 4

文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/yxx122345/article/details/141528546

版权

在深度学习中，Normalization（归一化或标准化）是用于加速训练、提高模型稳定性和性能的重要技术。Normalization通过调整数据或网络中某些部分的分布，使得模型训练更加高效并有助于防止梯度消失或爆炸问题。

Normalization 的目的和作用

加速收敛：
- 正常情况下，未经归一化的数据输入到网络中，不同特征可能有不同的尺度和分布，这会导致梯度下降算法收敛得非常慢。通过归一化，数据的分布更加均匀，有助于加速模型的训练过程。
防止梯度消失或爆炸：
- 在深度网络中，前向传播和反向传播中参数的变化会被逐层放大或缩小，可能导致梯度逐渐消失（梯度消失问题）或逐渐增大（梯度爆炸问题）。Normalization 可以控制激活值和梯度的尺度，减少这种问题的发生。
提高模型的泛化能力：
- 通过Normalization，模型更容易学习到更加稳定和鲁棒的特征，从而提高在新数据上的表现，也就是模型的泛化能力。

常见的 Normalization 技术

Batch Normalization (BN)：
- 原理：在每一层的输出中，针对每个小批量（Batch）的激活值，计算其均值和方差，然后进行归一化，使其均值为0，方差为1。之后再通过可学习的缩放和平移参数对归一化后的值进行线性变换。
- 作用：
  - 使得每一层的输入分布更加稳定，减少梯度消失或爆炸的问题。
  - 允许使用更高的学习率，减少对权重初始化的依赖。
  - 在某些情况下，还能起到轻微的正则化效果，减少过拟合。
Layer Normalization (LN)：
- 原理：类似于Batch Normalization，但在每个样本的每一层输出上进行归一化，而不是在整个批次上。Layer Normalization对于每个输入样本独立进行归一化，因此更适用于小批量甚至单个样本的训练。
- 作用：
  - 更适合递归神经网络（RNN）和Transformer等模型结构。
  - 可以在小批量训练时稳定模型性能。
Instance Normalization (IN)：
- 原理：在计算机视觉任务中常用，主要针对每个样本的每个通道分别进行归一化，而不是整个批次或整个层。
- 作用：
  - 常用于生成对抗网络（GAN）中的图像生成任务，帮助处理图像的风格转换和图像合成。
Group Normalization (GN)：
- 原理：在每个样本的特征图上，将通道分成几个组，在每组上分别进行归一化。
- 作用：
  - 对小批量训练更加有效，不依赖批量大小的选择。