Xavier 均匀初始化方法（Xavier Uniform Initialization）来

最新推荐文章于 2025-03-11 22:53:05 发布

朋也透william

最新推荐文章于 2025-03-11 22:53:05 发布

阅读量1.2k

点赞数 14

文章标签：深度学习

本文链接：https://blog.csdn.net/weixin_44012667/article/details/144177128

版权

使用 Xavier 均匀初始化方法（Xavier Uniform Initialization）来初始化张量 m.weight 的权重值：

1. Xavier 均匀初始化的定义

Xavier 均匀初始化是 权重初始化 的一种方法，其主要目的是：

保持前向传播和反向传播过程中，梯度的尺度在各层间保持稳定，避免梯度爆炸或梯度消失。

公式如下：
$\sim \mathcal{U}\left[-\sqrt{\frac{6}{n_{in} + n_{out}}}, \sqrt{\frac{6}{n_{in} + n_{out}}}\right]$
其中：

$\mathcal{U}$ 表示均匀分布。
$n_{in}$ : 当前层的输入神经元数量。
$n_{out}$ : 当前层的输出神经元数量。
权重值 $W$ 被初始化为介于上述范围内的随机数。

2. 代码解析

nn.init.xavier_uniform_(m.weight)

m.weight:
- m 通常是一个层（如 nn.Linear 或 nn.Conv2d）。
- m.weight 是该层的权重张量。
nn.init.xavier_uniform_:
- PyTorch 提供的函数，用于实现 Xavier 均匀初始化。
- 它会根据权重的形状自动计算 $n_{in}$ 和 $n_{out}$ 。

3. 使用示例

假设 m 是一个全连接层：

import torch
import torch.nn as nn

# 定义一个线性层
m = nn.Linear(in_features=128, out_features=64)

# 使用 Xavier 均匀初始化
nn.init.xavier_uniform_(m.weight)

# 查看初始化后的权重范围
print(m.weight)