【学习杂记】Xavier初始化

最新推荐文章于 2024-04-21 21:45:36 发布

此心安处是吾乡_

最新推荐文章于 2024-04-21 21:45:36 发布

阅读量666

点赞数 1

分类专栏： Machine Learning 其他文章标签：人工智能机器学习深度学习算法

本文链接：https://blog.csdn.net/wjpwjpwjp0831/article/details/121654845

版权

其他同时被 2 个专栏收录

34 篇文章 2 订阅

订阅专栏

Machine Learning

16 篇文章 2 订阅

订阅专栏

前言：

有时由于数据的稳定性不高，会带来梯度爆炸和梯度消失的问题。解决这样的问题有很多方式，例如让乘法变加（ResNet和LSTM的方式），归一化（比如梯度归一化），再者就是合理地初始化权重和选择激活函数。今天学了一下Xavier初始化，记录一下.

1.缘起

我们将梯度和每一层的输出都看做随机变量。

为了让模型稳定，假如我们期望的事情是让每一层的输出的期望和方差一直保持一致，也就是：
$\forall i,t:\\正向时:E[h_i^t]=0,Var[h_i^t]=a\\ 反向时:E[\frac{\partial l}{\partial h_i^t}]=0,Var[\frac{\partial l}{\partial h_i^t}]=b\\$
其中 $i$ 是当前层第 $i$ 个元素， $t$ 是层数。

感觉Batch Norm干的就是这件事情。
这样的意义是，不管网络有多深，每一层的输出和梯度统计上来看都差不多，就会比较好。

假设，我们的模型是MLP， 我们想满足上面的条件，还假设：

$w^t_{i,j}是i.i.d.$ ,则 $E[w^t_{i,j}]=0,Var[w^t_{i,j}]=\gamma_t$
$h_i^{t-1}$ 和 $w^t_{i,j}$ 独立，也就是第 $t$ 层的输入和权重独立
假设没有activation function，没有bias.

则在第 $t$ 层：
$\bm h^t=\bm W^t \bm h^{t-1},\quad \bm W^t\in \textbf{R}^{n^t\times n^{t-1}}$
其中 $n^t,n^{t-1}$ 是本层输出和输入的维数。

考察第 $i$ 个输出:
$E[h_i^t]=E[\sum_j w^t_{i,j}h^{t-1}_j]\\ =(均值的线性性,w和h独立)\sum_jE[w^t_{i,j}]E[h^{t-1}_j]=0$

$Var[h_i^t]=E[(h_i^t)^2]-E^2[h_i^t]=E[(h_i^t)^2]\\ =E[(\sum_j w^t_{i,j}h^{t-1}_j)^2]\\ =E[\sum_j( w^t_{i,j}h^{t-1}_j)^2+\sum_{j\ne k}w^t_{i,j}w^t_{i,k}h^{t-1}_jh^{t-1}_k]\\ =(w_{i,j}是iid,协方差为0,w和h独立)\sum_j E[(w^t_{i,j})^2]E[(h^{t-1}_j)^2]\\ =(均值为0)\sum_j Var[w_{i,j}]Var[h^{t-1}_j]\\ =(w方差是\gamma_t,t-1层维数为n^{t-1})n^{t-1}\gamma_tVar[h^{t-1}_j]$

如果我们要求两层之间方差相等，就要满足：
$n^{t-1}\gamma_t=1$

反向同理：
$\frac{\partial l}{\partial \bm h^{t-1}}=\frac{\partial l}{\partial \bm h^{t}}\frac{\partial \bm h^{t}}{\partial \bm h^{t-1}}=\frac{\partial l}{\partial \bm h^{t}}\bm W^t$

具体到第 $i$ 个元素，有如下关系：
$\frac{\partial l}{\partial h_i^{t-1}}=\sum_j\frac{\partial l}{\partial h_i^t}w_{i,j}$
将其记为:
$a_i^{t-1}=\sum_j a_i^t w_{i,j}$
所以，和正向传播具有完全相同的形式，只是前面的层数标号是 $t - 1$ ，后面是 $t$ ，和正向传播的对调了。完全一样的过程，得到：

$Var[a_i^{t-1}]=n^t\gamma_tVar[a_i]$

所以反向传播得到的结论是：
$n^{t}\gamma_t=1$
$\space$

2.Xavier初始化

但是 $n^{t-1}\gamma_t=1且n^{t}\gamma_t=1$ 这个条件太强，我们不可能让每一层的特征维数都相同。因此采取一种折中的方式：
$\frac{\gamma_t(n^{t-1}+n^{t})}{2}=1\\ 也即\gamma_t=\frac{2}{(n^{t-1}+n^{t})}$