神经网络中的权重初始化方式和pytorch应用

最新推荐文章于 2024-01-03 16:19:47 发布

codingClaire

最新推荐文章于 2024-01-03 16:19:47 发布

阅读量1.7k

点赞数 1

分类专栏：深度学习实践文章标签： python pytorch 深度学习神经网络人工智能

本文链接：https://blog.csdn.net/wuruoting_claire/article/details/127586741

版权

深度学习实践专栏收录该内容

4 篇文章 1 订阅

订阅专栏

文章目录

深度学习模型中的权重初始化对模型的训练效果有很大的影响，对预训练模型的研究就是为了在大模型上先训练出较好的权重，然后再放到不同的小任务上微调。

对于不加载预训练的模型，仍然可以通过定义模型权重初始化的方式来使得模型获得较好的效果，以下介绍不同的权重初始化方法、适用场景及效果。

计算增益

对于线性

nonlinearity	gain
Linear / Identity	$1$
Conv{1,2,3}D	$1$
Sigmoid	$1$
Tanh	$\frac{5}{3}$
ReLU	$\sqrt{2}$
Leaky Relu	$negative_slope 2 \sqrt{\frac{2}{1 + \text{negative\_slope}^2}}$
SELU	$\frac{3}{4}$

常数初始化

torch.nn.init.constant_(tensor, val)
按照常数val初始化tensor。

特别的，val为0和1分别有torch.nn.init.zeros_(tensor)和torch.nn.init.ones_(tensor)。

均匀分布初始化

torch.nn.init.uniform_(tensor, a=0.0, b=1.0)
按照 $U (a, b)$ 的均匀分布初始化tensor。

正态分布初始化

torch.nn.init.normal_(tensor, mean=0.0, std=1.0)
按照 $N(mean,std^2)$ 的均匀分布初始化tensor。

Xavier初始化

均匀分布（glorot初始化）

torch.nn.init.xavier_uniform_(tensor, gain=1.0)
按照 $U (- a, a)$ 的均匀分布初始化tensor，其中
$\times \sqrt{\frac{6}{fan\_in + fan\_out}}$

正态分布

torch.nn.init.xavier_normal_(tensor, gain=1.0)

按照 $N(0,std^2)$ 的均匀分布初始化tensor，其中
$\times \sqrt{\frac{2}{fan\_in + fan\_out}}$

Kaiming初始化

均匀分布

torch.nn.init.kaiming_uniform_(tensor, a=0, mode='fan_in', nonlinearity='leaky_relu')

按照 $U (- a, a)$ 的均匀分布初始化tensor，其中
$\times \sqrt{\frac{3}{fan\_mode}}$

正态分布

torch.nn.init.kaiming_normal_(tensor, a=0, mode='fan_in', nonlinearity='leaky_relu')

按照 $N(0,std^2)$ 的均匀分布初始化tensor，其中
$\sqrt{\frac{gain}{fan\_mode}}$

具体应用

在pytorch中的torch.nn.init模块中有多种初始化的方法，可以显式地定义，以下是一个例子：

 def init_weights(self):
     for m in self.modules():
         if isinstance(m, GCNConv):
             m.weight.data = init.xavier_uniform(
                 m.weight.data, gain=torch.nn.init.calculate_gain("relu")
             )
             if m.bias is not None:
                 m.bias.data = init.constant(m.bias.data, 0.0)