pytorch小记（三十一）：深入解析 PyTorch 权重初始化：`xavier_normal_` 与 `constant_`

深入解析 PyTorch 权重初始化：`xavier_normal_` 与 `constant_`

在深度学习模型中，权重初始化 对训练的稳定性、收敛速度以及最终性能都有重要影响。PyTorch 提供了丰富的初始化函数，其中 xavier_normal_（也称 Glorot 正态初始化）和 constant_（常数初始化）是最常见的两种方式。本文将分别介绍它们的原理、应用场景与示例代码，帮助你在项目中灵活选用。

一、为什么要初始化？

未经合理初始化的权重可能会导致：

梯度消失或爆炸：过小的初始值让信号逐层衰减，过大的初始值容易在反向传播时不断膨胀。
收敛缓慢：不合适的分布可能使优化器难以找到合适的下降方向。
对称破缺不足：所有权重相同或为零会让网络各神经元学习到相同特征。

因此，好的初始化策略能平衡信号流动，让训练更高效、更稳定。

二、`xavier_normal_` (Glorot 正态初始化)

1. 原理

Xavier 初始化由 Xavier Glorot & Yoshua Bengio 在 2010 年提出，目标是在前向传播和反向传播时维持激活和梯度的方差不变。对于形状为 (out_features, in_features) 的权重矩阵 W：

$in_features + out_features ) . W_{ij} \sim \mathcal{N}\Bigl(0,\; \frac{2}{\text{in\_features} + \text{out\_features}}\Bigr).$

这里的方差：

$fan_in + fan_out . \mathrm{Var}(W_{ij}) = \frac{2}{\text{fan\_in} + \text{fan\_out}}.$

fan_in: 神经元输入通道数。
fan_out: 神经元输出通道数。

这种初始化能让网络信号保持在合理范围，防止深层网络训练困难。

2. PyTorch 接口

import torch
from torch.nn import init

# 对某个层的权重做 Xavier 正态初始化
init.xavier_normal_(layer.weight, gain=1.0)

gain (float)：缩放因子。对于非线性激活函数，可以根据激活类型传入不同的增益。例如 nn.ReLU 推荐 gain=\sqrt{2}。
如果网络层带有偏置（bias），常使用 init.constant_(layer.bias, 0) 将其初始化为 0。

3. 示例

import torch.nn as nn
from torch.nn import init

class MyModel(nn.Module):
    def __init__(self):
        super().__init__()
        self.fc = nn.Linear(256, 128)
        # Xavier 正态初始化
        init.xavier_normal_(self.fc.weight, gain=init.calculate_gain('relu'))
        init.constant_(self.fc.bias, 0.0)

    def forward(self, x):
        return nn.functional.relu(self.fc(x))

三、`constant_` (常数初始化)

1. 原理与作用

constant_ 将张量的所有元素都赋值为用户指定的常数 val：

W_{ij} = val, \quad \forall i,j.

常用于偏置（bias）初始化为 0 或小正值（如 0.01）。
在 BatchNorm、LayerNorm 等操作中，将缩放参数 weight 初始化为 1，将偏移参数 bias 初始化为 0，也是常见做法。

2. PyTorch 接口

# 对所有元素赋常数
init.constant_(tensor, val)

3. 示例

import torch.nn as nn
from torch.nn import init

# 假设一个卷积层
conv = nn.Conv2d(3, 16, kernel_size=3)
# 将卷积核权重初始化为常数 0.001
init.constant_(conv.weight, 0.001)
# 偏置初始化为 0
init.constant_(conv.bias, 0.0)

四、何时选择哪种初始化？

场景	建议初始化方式
普通全连接／卷积层	`xavier_normal_`（或 `xavier_uniform_`）
ReLU/ReLU-like 激活	`gain=√2` 的 `xavier_normal_`
偏置（Bias）	`constant_(..., 0)`
归一化层的缩放参数	`constant_(..., 1)`
自定义小尺度初始值	`constant_(..., 小值)`