【torch.nn.init】初始化参数方法解读

torch.nn.init

均匀分布

  • 格式

    torch.nn.init.uniform_(tensor, a=0.0, b=1.0)

  • 作用

    从均匀分布 U ( a , b ) U(a,b) U(a,b)中生成值,填充输入的张量或变量。

  • 参数

    • tensor n 维的torch.Tensor
    • a 均匀分布的下界
    • b均匀分布的上界
  • 例子

w = torch.empty(3, 5)
nn.init.uniform_(w)

正态分布

  • 格式

    **torch.nn.init.normal_(tensor, mean=0.0, std=1.0)**

  • 作用

    从给定均值和标准差的正态分布 N ( m e a n , s t d ) N(mean,std) N(mean,std)中生成值,填充输入的张量或变量。

  • 参数

    • tensorn维的torch.Tensor
    • mean 正态分布的均值
    • std 正态分布的标准差
w = torch.empty(3, 5)
nn.init.normal_(w)

常数分布

  • 格式

    torch.nn.init.constant_(tensor, val)

  • 作用

    val的值填充输入的张量或变量

  • 参数

    • tensor n维的torch.Tensor 或 autograd.Variable
    • val 用来填充张量的值
w = torch.empty(3, 5)
nn.init.constant_(w, 0.3)

全1分布

  • 格式

    torch.nn.init.ones_(tensor)

  • 作用

    用全0填充张量

  • 参数

    • tensor n维的torch.Tensor
  • 例子

w = torch.empty(3, 5)
nn.init.ones_(w)

全0分布

  • 格式

    torch.nn.init.zeros_(tensor)

  • 作用

    用全1填充张量

  • 参数

    • tensor n维的torch.Tensor
  • 例子

w = torch.empty(3, 5)
nn.init.zeros_(w)

对角分布

  • 格式

    torch.nn.init.eye_(tensor)

  • 作用

    用单位矩阵来填充2维输入张量或变量

  • 参数

    • tensor 2维的torch.Tensor 或 autograd.Variable
w = torch.empty(3, 5)
nn.init.eye_(w)

dirac 分布

  • 格式

    torch.nn.init.dirac_(tensor, groups=1)

  • 作用

    用Dirac δ函数来填充{3, 4, 5}维输入张量或变量。在卷积层尽可能多的保存输入通道特性

  • 参数

    • tensor {3, 4, 5}维的torch.Tensor 或 autograd.Variable
  • 例子

    w = torch.empty(3, 16, 5, 5)
    nn.init.dirac_(w)
    w = torch.empty(3, 24, 5, 5)
    nn.init.dirac_(w, 3)
    

xavier_uniform 分布

  • 格式

    torch.nn.init.xavier_uniform_(tensor, gain=1.0)

  • 作用

    用一个均匀分布生成值,填充输入的张量或变量。

  • 参数

    • tensor n维的torch.Tensor
    • gain 可选的缩放因子
w = torch.empty(3, 5)
nn.init.xavier_uniform_(w, gain=nn.init.calculate_gain('relu'))

xavier_normal 分布

  • 格式

    torch.nn.init.xavier_normal_(tensor, gain=1.0)

  • 作用

    用一个正态分布生成值,填充输入的张量或变量。

  • 参数

    • tensor n维的torch.Tensor
    • gain 可选的缩放因子
w = torch.empty(3, 5)
nn.init.xavier_normal_(w)

kaiming_uniform 分布

  • 格式

    torch.nn.init.kaiming_uniform_(tensor, a=0, mode='fan_in', nonlinearity='leaky_relu')

  • 作用

    用一个均匀分布生成值,填充输入的张量或变量。

  • 参数

    • tensor n维的torch.Tensor或autograd.Variable
    • a 这层之后使用的rectifier的斜率系数(ReLU的默认值为0)
    • mode 可以为“fan_in”(默认)或 “fan_out
      fan_in”保留前向传播时权值方差的量级
      fan_out”保留反向传播时的量级
    • nonlinearity=‘leaky_relu’非线性函数 建议“relu”或“leaky_relu”(默认值)使用。

    w = torch.empty(3, 5)
    nn.init.xavier_normal_(w)

w = torch.empty(3, 5)
nn.init.kaiming_uniform_(w, mode='fan_in', nonlinearity='relu')

kaiming_normal 分布

  • 格式

    torch.nn.init.kaiming_normal_(tensor, a=0, mode='fan_in', nonlinearity='leaky_relu')

  • 作用

    用一个正态分布生成值,填充输入的张量或变量。

  • 参数

    • tensor n维的torch.Tensor或 autograd.Variable
    • a 这层之后使用的rectifier的斜率系数(ReLU的默认值为0)
    • mode 可以为“fan_in”(默认)或 “fan_outfan_in保留前向传播时权值方差的量级fan_out保留反向传播时的量级
w = torch.empty(3, 5)
nn.init.kaiming_normal_(w, mode='fan_out', nonlinearity='relu')

正交矩阵

  • 格式

    torch.nn.init.orthogonal_(tensor, gain=1)

  • 作用

    用一个(半)正交矩阵填充输入张量。

  • 参数

    • tensor 一个n维的tensor,其中 n≥2
    • gain 可选比例系数
w = torch.empty(3, 5)
nn.init.orthogonal_(w)

稀疏矩阵

  • 格式

    torch.nn.init.sparse_(tensor, sparsity, std=0.01)

  • 作用

    将2D输入张量填充为稀疏矩阵,其中非零元素将从正态分布 N ( 0 , 0.01 ) N(0,0.01) N(0,0.01)中提取。

  • 参数

    • **tensor** 一个n维的torch.tensor张量
    • sparsity 每一列中元素的比例设置为零
    • std 用于产生非零值的正态分布的标准差
w = torch.empty(3, 5)
nn.init.sparse_(w, sparsity=0.1)

参考

torch.nn.init - PyTorch 1.13 documentation

【细聊】torch.nn.init 初始化_ViatorSun的博客-CSDN博客_nn.init.constant

### PyTorch 中 `torch.nn.Linear` 参数初始化方法 在构建神经网络时,权重和偏置的初始值对于训练过程至关重要。不恰当的初始化可能导致梯度消失或爆炸等问题,影响模型的学习效率。 #### 使用默认初始化方式 当创建一个新的线性层实例时,默认情况下会自动调用 Kaiming Uniform 初始化器来设置该模块内部张量的数据分布[^2]: ```python import torch from torch import nn linear_layer = nn.Linear(784, 256) print(linear_layer.weight.data) # 查看当前权重量化后的随机数 ``` #### 自定义初始化函数 除了依赖框架自带的方式外,还可以通过重写 `_initialize_weights()` 或者直接操作 `.weight` 属性来进行个性化配置。这里给出几种常见的做法: ##### Xavier/Glorot 均匀分布初始化 Xavier 是一种广泛采用的技术,它考虑到了每一层输入输出节点数量之间的关系,从而使得信号能够稳定传递给下一层。 ```python def init_xavier_uniform(layer): if type(layer) == nn.Linear: torch.nn.init.xavier_uniform_(layer.weight) model = nn.Sequential( nn.Flatten(), nn.Linear(784, 256), nn.ReLU() ).apply(init_xavier_uniform) ``` ##### 正态/高斯分布初始化 有时也可能会希望按照标准正态分布 N(0, σ²) 来分配这些参数,在这种场景下可以利用 `normal_()` 函数完成任务。 ```python for param in linear_layer.parameters(): if len(param.shape) > 1: # 只处理二维以上的张量(即权重) torch.nn.init.normal_(param, mean=0., std=0.01) ``` ##### 随机均匀分布初始化 如果想要让所有的数值都落在某个特定区间内,则可以选择 uniform_() 方法实现这一点。 ```python nn.init.uniform_(tensor=linear_layer.bias, a=-0.1, b=0.1) ``` 上述三种方案各有优劣之处,实践中可以根据具体情况灵活选用最适合自己项目的那一款。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

zyw2002

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值