深度学习之参数初始化—Xavier初始化

最新推荐文章于 2023-08-12 10:09:17 发布

AI研习图书馆

最新推荐文章于 2023-08-12 10:09:17 发布

阅读量1.2k

点赞数 1

分类专栏：算法学习文章标签： Xavier初始化方法参数初始化

本文链接：https://blog.csdn.net/weixin_44222014/article/details/103171531

版权

本文介绍了深度学习中的Xavier初始化方法，源于2010年的论文《Understanding the difficulty of training deep feedforward neural networks》。Xavier初始化旨在解决深度学习模型训练中的梯度消失问题，确保神经网络在训练过程中能学到有用信息。通过分析标准初始化方法的不足，提出Glorot条件，以保持激活值和状态梯度的方差一致性。在Caffe框架中，Xavier初始化有三种实现方式。然而，由于其假设，Xavier初始化并不适用于所有类型的激活函数，如sigmoid和ReLU。

摘要由CSDN通过智能技术生成

个人微信公众号：AI研习图书馆，欢迎关注~

深度学习知识及资源分享，学习交流，共同进步~

1.引言

本文介绍一下深度学习参数初始化问题中耳熟能详的参数初始化方法——Xavier初始化。

文章：Understanding the difficulty of training deep feedforward neural networks

下载地址：https://machinelearning.wustl.edu/mlpapers/paper_files/AISTATS2010_GlorotB10.pdf

“Xavier”初始化方法是一种很有效的神经网络初始化方法，方法来源于2010年的一篇论文《Understanding the difficulty of training deep feedforward neural networks》。

通常，一般的深度学习文章上来就是实验，告诉读者这个实验结果好，然后由实验结果再反向给出一些无从验证的可能对可能不对的原因。而这篇文章虽然整体来看比较简单，但结构非常严谨：首先通过实验分析标准初始化方法的问题；然后根据两个目标——状态方差和梯度方差保持不变推导出参数的特点，给出Xavier初始化方法的具体形式；最后通过实验验证Xavier初始化的效果确实不错。

在开始阅读下面的内容之前，我们需要牢记参数初始化的目的是为了让神经网络在训练过程中学习到有用的信息，这意味着参数梯度不应该为0。而我们知道在全连接的神经网络中，参数梯度和反向传播得到的状态梯度以及入激活值有关——激活值饱和会导致该层状态梯度信息为0，然后导致下面所有层的参数梯度为0；入激活值为0会导致对应参数梯度为0。所以如果要保证参数梯度不等于0，那么参数初始化应该使得各层激活值不会出现饱和现象且激活值不为0。我们把这两个条件总结为参数初始化条件：