神经翻译笔记3扩展c. 神经网络的初始化

最新推荐文章于 2022-08-19 16:28:36 发布

TimsonShi

最新推荐文章于 2022-08-19 16:28:36 发布

阅读量466

点赞数

分类专栏：神经翻译笔记文章标签：深度学习 he初始化 xavier初始化

本文链接：https://blog.csdn.net/xacecaSK2/article/details/89359292

版权

本文介绍了深度学习中神经网络初始化的重要性，包括基本的初始化方法、LeCun初始化、Xavier初始化（Glorot初始化）和He初始化。针对不同激活函数，如sigmoid、tanh和ReLU，推荐使用不同的初始化策略，以避免梯度消失和梯度爆炸问题。特别地，He初始化适用于ReLU激活函数，能更好地适应卷积神经网络。

摘要由CSDN通过智能技术生成

文章目录

神经翻译笔记3扩展c. 神经网络的初始化

神经翻译笔记3扩展c. 神经网络的初始化

深度学习中，在具体网络结构之上，有三种应用广泛而且比较微妙的技术，分别是

初始化，即如何恰当地初始化网络参数。不恰当的初始化方法甚至会使网络无法被训练，而好的初始化方法可以缩短网络训练的时间
优化，即如何让参数更新，最后达到最优解。这部分内容实际上并非深度学习所特有，各个优化器可以应用在其它基于梯度的机器学习模型上，例如线性回归、逻辑回归等等。因此这部分放在了深度学习部分之前介绍：优化方法
泛化（generalization），或者说正则化（regularization），即如何防止模型过拟合。一些泛化方法也在其它机器学习模型上得到了应用，如L1正则化、L2正则化以及衍生出来的弹性网等。但是针对深度学习，有一些比较专门的泛化方法

本文将对初始化方法做一些介绍，下一篇文章介绍泛化（正则化）方法

基本初始化方法

比较常用和基本的初始化方法有两种，分别是均匀分布初始化和正态分布初始化法。核心思想就是根据给定的某个概率分布随机生成参数。例如，

tf.initializers.random_uniform(-0.1, 0.1)会在区间[-0.1, 0.1]内根据均匀分布产生一个随机数
tf.initializers.truncated_normal(0, 1)会根据均值为0，方差为1的正态分布产生一个随机数。如果生成的随机数超出了均值+/-2倍标准差的临界值，那么该值会被丢弃，重新产生一个随机数。TF官方文档推荐使用这个方法来初始化神经网络的权重，而不是普通的正态分布生成器tf.initializaers.random_normal

然而，普通的随机初始化方法有缺陷，不适合复杂网络。主要原因是对于非线性激活函数，其导数通常都有一大部分非常平坦的区域。如果初始化得到的权重落在了这个区域里，神经元会饱和，权重很难得到更新。例如，对于常见的激活函数 $\tanh$ ，如果输入 $x$ 的绝对值大于2，就会落入到饱和区域。对于最简单的前馈神经网络，假设隐藏层每个节点都与输入的每个节点全连接，那么对某个节点，有
$h_j = x_1w_{1j} + x_2w_{2j} + x_3w_{3j} + \ldots$
对求和项的每一项，其方差根据独立变量的乘积定理，有
${\rm Var}(x_iw_{ij}) = [{\rm E}(x_i)]^2{\rm Var}(w_{ij}) + [{\rm E}(w_{ij})]^2{\rm Var}(x_i) + {\rm Var}(x_i){\rm Var}(w_{ij})$
假设输入的均值为0，方差为1，而且初始化权重时，也是从一个均值为0，方差为1的分布初始化，代入上式，有
${\rm Var}(x_iw_{ij}) = 0 \times 1 + 0 \times 1 + 1 \times 1 = 1$
该节点的方差使用不相关独立变量加和定理，有
${\rm Var}(h_j) = \sum_{i=0}^n {\rm Var}(x_iw_{ij}) = n \times 1 = n$
其中 $n$ 是输入节点的个数。假设输入节点数为784，那么方差就是784，标准差为 $\sqrt{ {\rm Var}(h_j)} = \sqrt{784} = 28$ ，因此大多数权重都会有 $∣ w ∣ > 2$ ，进入饱和区域。因此需要其它初始化方法

LeCun初始化

Yann LeCun在1998年的一篇文章[LeCun1998]上率先提出了一种初始化方法。首先，要求节点的输出所属的分布必须标准差接近1，因此首先需要输出的方差为1，这可以通过一个归一化操作来解决。然后，假设某个神经元的输入 $y_i$ 不相关且方差为1，那么该单元的所有权重之和的标准差为
$\sigma_{y_i} = \sqrt{\left(\sum_j w_{ij}^2\right)}$
为了使该值接近1，权重必须来自于均值为0，标准差 $\sigma_w = m^{-1/2}$ 的分布，其中 $m$ 是该单元的输入数。文章没有点名必须用什么样的分布，只是说可以是均匀分布

在TensorFlow的实现里，有两种实现：

对tf.initializers.lecun_uniform，权重来源的分布是 $\rm [-limit, limit]$ 的均匀分布，其中 ${\rm limit} = \sqrt{3/m}$
对tf.initializers.lecun_normal，权重来源的分布是均值为0，标准差为 $\sqrt{1/m}$ 的正态分布

Xavier初始化（Glorot初始化）

对神经网络的每一层，记其输入是 ${\boldsymbol{z}^i}$ ，输出（也就是下一层的输入）为 $\boldsymbol{z}^{i+1}$ ，有
$\begin{aligned} \boldsymbol{s}^i &= \boldsymbol{z}^i\boldsymbol{W}^i + \boldsymbol{b}^i \\ \boldsymbol{z}^{i+1} &= f(\boldsymbol{s}^i) \end{aligned}$
其中 $f$ 是非线性激活函数，且在0点处导数为1（ $f^{'} (0) = 1$ ）。根据反向传播的定义，有
$\begin{aligned} \frac{\partial {\rm cost}}{\partial s_k^i} &= \frac{\partial z_k^{i+1}}{\partial s_k^i} \cdot \frac{\partial \boldsymbol{s}^{i+1}}{\partial z_k^{i+1}} \cdot \frac{\partial {\rm cost}}{\partial \boldsymbol{s}^{i+1}} \\ &= f'(s_k^i)\boldsymbol{W}_{k\cdot}^i\frac{\partial {\rm cost}}{\partial \boldsymbol{s}^{i+1}} \\ \frac{\partial {\rm cost}}{\partial W_{kl}^i} &= z_l^i\frac{\partial {\rm cost}}{\partial s_k^i} \end{aligned}$
假设权重矩阵中的每一项都是独立初始化，而且输入的每一项方差都相同，记为 ${\rm Var}[x]$ ，则对于网络的第