Xavier initialization 理解与实现（python 与 C）

最新推荐文章于 2024-02-24 21:01:01 发布

TransientYear

最新推荐文章于 2024-02-24 21:01:01 发布

阅读量2.6k

点赞数 1

分类专栏：机器学习公式推导理解文章标签：机器学习深度学习 Xavier initialization 初始化

本文链接：https://blog.csdn.net/z_feng12489/article/details/102913634

版权

机器学习公式推导理解同时被 2 个专栏收录

25 篇文章 11 订阅

订阅专栏

深度学习

16 篇文章 0 订阅

订阅专栏

初始化原因

具体的初始化原因可以关注这篇博客-浅谈深度学习初始化参数。

基本思想

基本思想是保持输入和输出的方差一致，这样就避免了所有输出值都趋向于0。注意，为了问题的简便，其推导过程是基于线性函数的，但是它在一些非线性神经元中也很有效。

caffe 下的 xavier 实现

caffe 中，网络参数初始化通过从一个 0 均值和特定方差的分布（一般为正态分布或均匀分布）中获得：
$\operatorname{Var}(W)=\frac{1}{n_{\mathrm{in}}}$ $\text { stddev }=\frac{1}{\sqrt{n_{\mathrm{in}}}}$

python 实现：

def initialize_parameters_he(layers_dims):
    """
    Arguments:
    layer_dims -- python array (list) containing the size of each layer.

    Returns:
    parameters -- python dictionary containing your parameters "W1", "b1", ..., "WL", "bL":
                    W1 -- weight matrix of shape (layers_dims[1], layers_dims[0])
                    b1 -- bias vector of shape (layers_dims[1], 1)
                    ...
                    WL -- weight matrix of shape (layers_dims[L], layers_dims[L-1])
                    bL -- bias vector of shape (layers_dims[L], 1)
    """
    np.random.seed(3)
    parameters = {}
    L = len(layers_dims)  # integer representing the number of layers
    for l in range(1, L):
        parameters['W' + str(l)] = np.random.randn(layers_dims[l], layers_dims[l - 1]) * np.sqrt(1 / layers_dims[l - 1])
        parameters['b' + str(l)] = np.zeros((layers_dims[l], 1))
    return parameters

C语言实现：

typedef struct {
	int row, col;
	float** element;
}Mat;

float gaussrand_NORMAL() {
	float V1=0., V2=0., S=0.;
	int phase = 0;
	int count = 0;
	float X;


	if (phase == 0) {
		while (count == 0 || (S >= 1 || S == 0)){
			float U1 = (float)(rand() % 10000) / 10000.f;
			float U2 = (float)(rand() % 10000) / 10000.f;


			V1 = 2 * U1 - 1;
			V2 = 2 * U2 - 1;
			S = V1 * V1 + V2 * V2;
			count += 1;
		} ;

		float temp_S_1 = log(S);
		X = V1 * sqrt(-2 * temp_S_1 / S);
	}
	else
	{
		float temp_S_2 = log(S);
		X = V2 * sqrt(-2 * temp_S_2 / S);
	}
		


	phase = 1 - phase;

	
	return X;
}


float gaussrand(float mean, float stdc) {
	return mean + gaussrand_NORMAL() * stdc;
}


Mat* MatInitXavier(Mat *src)
{
	srand((unsigned int)time(NULL));  // set randon seed

	int row, col;
	//weight
	for (row = 0; row < src->row; ++row){
		for (col = 0; col < src->col; ++col){
			(src->element[row])[col] = gaussrand(0.f, 0.1f) * sqrt(1.f/src->row);  // mean stdc
		}
	}
	//bias
	for (row = 0; row < src->row; ++row){
		(src->element[row])[0] = 0.f;
	}
	return src;
}

C语言实现结果：

在这里插入图片描述

Glorot & Bengio xavier 实现

在 Glorot & Bengio’s 的文章（Understanding the difficulty of training deep feedforward neural networks）中，推荐的却是如下形式：

$\frac{2}{n_{in}+n_{out}}$

简单推导

n 个成分构成的输入向量 x，经过一个随机矩阵为 w 的线性神经元，得到输出
$\boldsymbol{y}=w \boldsymbol{x}=w_{1} x_{1}+w_{2} x_{2}+\ldots+w_{n} x_{n}$

已知 $x_i$ 是独立同分布的，且均值方差已知，此时求输出 $y$ 的方差。

推导如下，由独立变量积的方差计算公式（Product of independent variables）可知，

$\operatorname{Var}\left(W_{i} X_{i}\right)=\left[E\left(X_{i}\right)\right]^{2} \operatorname{Var}\left(W_{i}\right)+\left[E\left(W_{i}\right)\right]^{2} \operatorname{Var}\left(X_{i}\right)+\operatorname{Var}\left(X_{i}\right) \operatorname{Var}\left(W_{i}\right)$
又已对输入向量取均值，输入和权值矩阵均值均为 0，则：

$\operatorname{Var}\left(W_{i} X_{i}\right)=\operatorname{Var}\left(X_{i}\right) \operatorname{Var}\left(W_{i}\right)$
所以进一步有：

$\operatorname{Var}(\boldsymbol{y})=\operatorname{Var}\left(\sum_{i} w_{i} x_{i}\right)=\sum_{i} \operatorname{Var}\left(w_{i} x_{i}\right)=\sum_{i} \operatorname{Var}\left(x_{i}\right) \operatorname{Var}\left(w_{i}\right)=n \operatorname{Var}\left(x_{i}\right) \operatorname{Var}\left(w_{i}\right)$
因此为使得，输出 y 与输入 x 具有相同的均值和方差，权值矩阵的方差则要求：