数值稳定性、模型初始化、激活函数python

最新推荐文章于 2024-11-10 13:43:20 发布

CeciliaJingle

最新推荐文章于 2024-11-10 13:43:20 发布

阅读量1k

点赞数 24

文章标签： python 开发语言

本文链接：https://blog.csdn.net/weixin_46323807/article/details/134982615

版权

本文探讨了深度学习中数值稳定性的问题，涉及梯度爆炸和消失现象，提出通过合理的权重初始化（如Xavier分布），选择恰当的激活函数（如ReLU缓解梯度消失），以及使用归一化方法（如梯度归一化）来提升训练的稳定性。

摘要由CSDN通过智能技术生成

动手学深度学习14/76
数值稳定性、模型初始化、激活函数python

神经网络的梯度

考虑如下有d层神经网络,t是第t层隐藏层输出。
$h^t=f_t(h^{t-1}) \ \ and \ \ y=l\ ·\ f_d\ ···f_1(x)$
计算损失函 $l$ 数关于参数 $W_t$ 的梯度

数值稳定性常见两个问题

梯度爆炸（relu）
1.5的100次方约等于4×10的17次方
值超出值域（infinity）
–对于16位浮点数尤为严重
对学习率敏感
–如果学习率太大->大1参数值->更大的梯度
– 如果学习率太小->训练无进展
–可能需要在训练过程中不断调整学习率
梯度消失（sigmoid）
0.8的100次方约等于2×10的-10次方
梯度值变为0
–对16位浮点数尤为严重（16比32速度快一些）
训练没有进展
– 不管如何选择学习率
对于底部层尤为严重
– 仅仅顶部层训练好
–无法让神经网络更深

总结
当数值过大或者过小会导致数值问题
常发生在深度模型中，因为其会对n个数累乘。

让训练更加稳定

目标：让梯度值在合理的范围内
–例如[1e-6,1e3]
将乘法变加法
–ResNet，LSTM
归一化
–梯度归一化。梯度裁剪
合理的权值初始和激活函数

让每层的方差是一个常数

将每层的输出和梯度都看做随机变量
让他们的均值和方差保持一致（随机初始化）
t是第t层的输出，i是第i个元素，h隐藏层。
$正向\ \ \ \ \ \ E[h_i^t]=0\ \ \ \ Var[h_i^t]=a$
$反向\ \ \ \ \ \ E[\frac{\partial l}{\partial h_i^t}]=0\ \ \ \ Var[\frac{\partial l}{\partial h_i^t}]=b$

权重初始化

-在合理值区间里随机初始参数
-训练开始的时候更容易有数值不稳定
----远离最优解的地方损失函数表面可能很复杂
----最优解附近表面会比较平（梯度比较小）
-使用N（0,0.01）来初始可能对小网络没问题，但不能保证深度神经网络
数学公式
随机过程，期望和方差
公式有点多
在这里插入图片描述

也就是，这里的的约束是，方差要根据输入和输出的维度进行初始化。

这里推导出来，就是激活函数，输入等于输出，y=x。

在0点附近，tanh()和relu()都符合y=x，sigmoid要改动