深度学习参数初始化(二)Kaiming初始化 含代码

目录

一、介绍

二、基础知识

三、Kaiming初始化的假设条件 

四、Kaiming初始化的简单的公式推导

1.前向传播

2.反向传播

五、Pytorch实现


深度学习参数初始化系列:

(一)Xavier初始化 含代码

(二)Kaiming初始化 含代码

一、介绍

        Kaiming初始化论文地址:https://arxiv.org/abs/1502.01852

        Xavier初始化在ReLU层表现不好,主要原因是relu层会将负数映射到0,影响整体方差。而且Xavier初始化方法适用的激活函数有限:要求关于0对称;线性。而ReLU激活函数并不满足这些条件,实验也可以验证Xavier初始化确实不适用于ReLU激活函数。所以何恺明在对此做了改进,提出Kaiming初始化,一开始主要应用于计算机视觉、卷积网络。

二、基础知识

1.假设随机变量X和随机变量Y相互独立,则有

        (1) 

 2.通过期望求方差的公式, 方差等于平方的期望减去期望的平方.

                (2)

 3.独立变量乘积公式

     (3)

4.连续性随机变量X的概率密度函数为f(x),若积分绝对收敛,则期望公式如下:

                        (4)

三、Kaiming初始化的假设条件 

        与Xavier初始化相似,Kaiming初始化同样适用Glorot条件,即我们的初始化策略应该使得各层的激活值和状态梯度的方差在传播过程中的方差保持一致;Kaiming初始化的参数仍然满足均值是0,且更新的过程中权重的均值一直是0。

        与Xavier初始化不同的,Kaiming初始化不在要求每层输出均值都是0(因为Relu这样的激活函数做不到啊);当然也不再要求f′(0)=1。

        Kaiming初始化中,前向传播和反向传播时各自使用自己的初始化策略,但是保证前向传播时每层的方差和反向传播时梯度的方差都是1。

四、Kaiming初始化的简单的公式推导

        我们使用卷积来进行推导,并且激活函数使用ReLU。

1.前向传播

        对于一层卷积,有:

                        (5)

         其中gif.latex?y_%7Bi%7D是激活函数前的输出,n_{i}是权重的个数,gif.latex?w_%7Bi%7D是权重,gif.latex?x_%7Bi%7D是输入。

        根据(3)式,可将(4)式推导为:

         (6)

         根据假设gif.latex?E%28w_%7Bi%7D%29%3D0,但是gif.latex?x_%7Bi%7D是上一层通过ReLU得到的,所以gif.latex?E%28x_%7Bi%7D%29%5Cneq%200,则:

                (7)

 通过(2)式可得,则(7)式推导为:

                        (8)

根据期望公式(4), 通过第gif.latex?i-1层的输出来求此期望, 我们有gif.latex?x_%7Bi%7D%3Df%28y_%7Bi-1%7D%29, 其中gif.latex?f表示ReLU函数.

                         (9)

其中表示概率密度函数,因为gif.latex?y_%7Bi-1%7D%5Cin%20%28-%5Cinfty%20%2C0%29的时候gif.latex?f%28y_%7Bi-1%7D%29%3D0,所以可以去掉小于0的区间, 并且大于0的时候gif.latex?f%28y_%7Bi-1%7D%29%3Dy_%7Bi-1%7D,可推出:

                   (10)

因为gif.latex?w_%7Bi-1%7D是假设在0周围对称分布且均值为0, 所以gif.latex?y_%7Bi-1%7D也是在0附近分布是对称的, 并且均值为0(此处假设偏置为0),则

       (11) 

所以gif.latex?x_%7Bi%7D%5E%7B2%7D的期望是:

              (12)

 根据公式(2),因为gif.latex?y_%7Bi-1%7D的期望等于0,于是有:

则式(12)推导为:

                        (13)

将(13)式带入(8)式:

                        (14)

从第一层一直往前进行前向传播, 可以得到某层的方差为 :

这里的gif.latex?x_%7B1%7D就是输入的样本, 我们会将其归一化处理, 所以gif.latex?Var%28x_%7B1%7D%29%3D1, 现在让每层输出方差等于1, 即:

于是正向传播时,Kaiming初始化的实现就是下面的均匀分布:

高斯分布:

2.反向传播

因为反向传播的时候

                (15)

 其中\Delta表示损失函数并对其求导. \hat{w_{i}}为参数

根据(3)式:

 其中\hat{n}表示反向传播时输出通道数,最后得出

于是反向传播时,Kaiming初始化的实现就是下面的均匀分布:

高斯分布:

五、Pytorch实现

import torch

class DemoNet(torch.nn.Module):
    def __init__(self):
        super(DemoNet, self).__init__()
        self.conv1 = torch.nn.Conv2d(1, 1, 3)
        print('random init:', self.conv1.weight)
        '''
            kaiming 初始化方法中服从均匀分布 U~(-bound, bound), bound = sqrt(6/(1+a^2)*fan_in)
            a 为激活函数的负半轴的斜率,relu 是 0
            mode- 可选为 fan_in 或 fan_out, fan_in 使正向传播时,方差一致; fan_out 使反向传播时,方差一致
            nonlinearity- 可选 relu 和 leaky_relu ,默认值为 。 leaky_relu
        '''
        torch.nn.init.kaiming_uniform_(self.conv1.weight, a=0, mode='fan_out')
        print('xavier_uniform_:', self.conv1.weight)

        '''
            kaiming 初始化方法中服从正态分布,此为 0 均值的正态分布,N~ (0,std),其中 std = sqrt(2/(1+a^2)*fan_in)
            a 为激活函数的负半轴的斜率,relu 是 0
            mode- 可选为 fan_in 或 fan_out, fan_in 使正向传播时,方差一致;fan_out 使反向传播时,方差一致
            nonlinearity- 可选 relu 和 leaky_relu ,默认值为 。 leaky_relu
        '''
        torch.nn.init.kaiming_normal_(self.conv1.weight, a=0, mode='fan_out')
        print('kaiming_normal_:', self.conv1.weight)


if __name__ == '__main__':
    demoNet = DemoNet()

         还在为找工作烦恼吗,用这个宝藏小程序,拿Offer快人一步!Offer入口》》》 

要将初始化方式从默认的均匀分布初始化改为Kaiming初始化,可以使用PyTorch中的`nn.init`模块提供的`kaiming_uniform_()`或者`kaiming_normal_()`函数来实现。这两个函数分别用于对权重和偏置进行Kaiming初始化,其中`kaiming_uniform_()`用于均匀分布初始化,`kaiming_normal_()`用于正态分布初始化。 具体地,假设您要对一个线性层`linear_layer`进行Kaiming初始化,可以使用以下代码: ```python import torch.nn.init as init # 对权重进行Kaiming均匀分布初始化 init.kaiming_uniform_(linear_layer.weight, a=0, mode='fan_in', nonlinearity='leaky_relu') # 对偏置进行Kaiming正态分布初始化 init.kaiming_normal_(linear_layer.bias, a=0, mode='fan_in', nonlinearity='leaky_relu') ``` 在这个例子中,我们使用了`nn.init`模块中的`kaiming_uniform_()`和`kaiming_normal_()`函数,对线性层`linear_layer`的权重和偏置进行了Kaiming初始化,其中`a=0`表示使用默认值,`mode='fan_in'`表示使用输入通道数来计算标准差,`nonlinearity='leaky_relu'`表示使用LeakyReLU作为激活函数。 需要注意的是,Kaiming初始化是一种针对ReLU等激活函数的特殊初始化方式,它可以加速网络的收敛速度和提高网络的性能。如果您的网络中使用的是其他激活函数(如sigmoid或tanh等),则可以考虑使用其他的初始化方式,例如Xavier初始化等。 总之,要将初始化方式从默认的均匀分布初始化改为Kaiming初始化,可以使用`nn.init`模块提供的`kaiming_uniform_()`或者`kaiming_normal_()`函数来实现。
评论 11
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小殊小殊

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值