【深度学习】Layer Normalization原理及其代码实现

SimpleLearing

已于 2024-08-15 21:31:52 修改

阅读量819

点赞数 10

分类专栏：多模态理解 nlp 文章标签：深度学习人工智能

于 2024-08-05 20:31:52 首次发布

本文链接：https://blog.csdn.net/yiqiedouhao11/article/details/140936031

版权

多模态理解同时被 2 个专栏收录

19 篇文章 0 订阅

订阅专栏

nlp

8 篇文章 0 订阅

订阅专栏

简介

Layer Normalization 是一种用于归一化神经网络内部激活的技术，旨在提高训练稳定性和速度。与 Batch Normalization 不同，Layer Normalization 对每个样本的特征维度进行归一化，而不是对整个 mini-batch 进行归一化。它特别适用于处理序列数据，如自然语言处理中的模型。

原理

Layer Normalization 的目标是对每个样本的特征维度进行归一化，确保每个特征的均值为零，方差为一。这是通过以下步骤实现的：

计算均值和方差：
对每个样本在特征维度上计算均值和方差。

$\text{mean}_{i, s} = \frac{1}{L} \sum_{l=1}^{L} x_{i, s, l}$

$\text{variance}_{i, s} = \frac{1}{L} \sum_{l=1}^{L} (x_{i, s, l} - \text{mean}_{i, s})^2$
归一化：
使用计算出的均值和方差对每个特征进行归一化。

$\hat{x}_{i, s, l} = \frac{x_{i, s, l} - \text{mean}_{i, s}}{\sqrt{\text{variance}_{i, s} + \epsilon}}$
缩放和平移：
使用可学习的参数 $\gamma$ 和 $\beta$ 对归一化后的数据进行缩放和平移。

$y_{i, s, l} = \gamma_s \cdot \hat{x}_{i, s, l} + \beta_s$

公式

Layer Normalization 的公式如下：

$\hat{x}_{i, s, l} = \frac{x_{i, s, l} - \text{mean}_{i, s}}{\sqrt{\text{variance}_{i, s} + \epsilon}}$

$y_{i, s, l} = \gamma_s \cdot \hat{x}_{i, s, l} + \beta_s$

其中：

$\text{mean}_{i, s}$ 是每个样本在序列维度上计算的均值。
$\text{variance}_{i, s}$ 是每个样本在序列维度上计算的方差。
$\epsilon$ 是一个小常数，用于避免除零错误。
$\gamma_s$ 和 $\beta_s$ 是可学习的参数，用于缩放和平移归一化后的值。

实现

Layer Normalization 类实现：

import numpy as np

class LayerNorm3D:
    def __init__(self, num_features, epsilon=1e-5):
        self.num_features = num_features
        self.epsilon = epsilon
        self.gamma = np.ones((1, num_features))
        self.beta = np.zeros((1, num_features))
        
    def forward(self, x):
        # 计算每个样本每个序列的均值和方差
        mean = np.mean(x, axis=2, keepdims=True)
        variance = np.var(x, axis=2, keepdims=True)
        
        # 归一化输入
        x_normalized = (x - mean) / np.sqrt(variance + self.epsilon)
        
        # 应用 gamma 和 beta
        out = self.gamma * x_normalized + self.beta
        return out