梯度消失与梯度爆炸

最新推荐文章于 2024-10-10 11:54:20 发布

ctxtqt

最新推荐文章于 2024-10-10 11:54:20 发布

阅读量564

点赞数 8

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_62436171/article/details/137429958

版权

今天学习到了梯度消失与梯度爆炸，特开此贴记录相关知识点。

一、梯度消失

假设我们有四层神经网络，wi为权重，ai为神经元。

如果我们需要计算W1的梯度，就必须要按照链式法则从右往左求偏导。假设我们使用sigmoid函数作为激活函数，其导函数图像为：

试想一下，根据链式求导法则，我们肯定是要将sigmoid的导数值与各权重值进行相乘，从而去求w1的梯度。就算每次取到sigmoid导函数的最大值1/4，始终是在使得w1的梯度往一个减小的方向进行下去的。比如例子中的四层神经网络，两次激活函数，每次都取最大值，都是1/16倍的x1*w2*w3，如果此时w2、w3、x1均是一个小于1的数，那么经过多次反向传播后，w1的梯度可能会越来越小。更别说sigmoid导数接近为0的时候了，此时梯度消失的速度只能更快。

所以梯度消失可以理解为传入数据很大或者很小时，此时sigmoid函数值接近于0或1，梯度接近于0，就算反向传播时上一步传导过来的梯度很大，也会导致需要更新的权重和偏置值无法更新，甚至接近于0，直接导致这个神经元饱和。

就算sigmoid函数值次次取最大值，但若此时权重和偏置值的初始值较小，权重和偏置值经过反向传播后更新只能变得越来越小，最后消失。

二、梯度消失的解决办法

解决方法，使用Relu函数，就是将负数映射为0，正数取本身，这个函数的梯度要么为0，要么为1。当输入大于0时，梯度为1。好处就是：ReLU的梯度的连乘不会收敛到0，连乘的结果也只可以取两个值：0或1 。如果值为1，梯度保持值不变进行向后传播；如果值为0 ,梯度从该位置停止向后传播。

当然，如果但输入的数据恒为负数时，则梯度也恒为0的时候，又会导致另外一个问题，神经元死亡。

通常，激活函数的输入值为数据加上一个偏置值(bias)，若bias太小，以至于输入激活函数的值为负数，那么在反向传播的过程中梯度恒为0。则神经元无法学习，直接导致该神经元死亡。

为了解决这一问题，提出了Leaky ReLU函数，即在小于0的时候，仍然有微小的梯度。

三、梯度爆炸

梯度误差是在神经网络训练期间计算的方向和梯度，神经网络以正确的方向和数值更新网络权重。但由于梯度的计算是存在误差的，梯度误差可能在更新过程中累积，造成非常大的梯度。这反过来会导致网络权重的大量更新，进而导致网络不稳定。在极端情况下，权重值可能变得太大，以至于溢出并导致NaN值现成梯度爆炸现象。

当然，权重值初始值过大，有可能会导致梯度爆炸现象。

四、梯度爆炸解决方法（部分与梯度消失通用）

解决这一问题我们可以采用梯度优化算法动态调整学习率，缩小batch size，使用权重正则化方法L1或L2，使用LSTM，减小神经网络层数。还有就是batch normalization，就是将数据输入隐层前将数据进行BN，从而使得数据更加符合正态分布，使得数据对于神经网络而言更有价值。

关注

8
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

ctxtqt CSDN认证博客专家 CSDN认证企业博客

码龄3年

11: 原创

73万+: 周排名

13万+: 总排名

1万+: 访问

: 等级

424: 积分

614: 粉丝

312: 获赞

11: 评论

219: 收藏

私信

关注

热门文章

最新评论

NLP简单项目实战——ChatBOT（二）
CSDN-Ada助手: 恭喜作者第10篇博客的发布！看到你在NLP简单项目实战中的探索与分享，我感到非常鼓舞。希望你能继续保持这样的创作热情，不断挑战自我，不断学习，不断进步。下一步可以考虑深入研究ChatBOT技术的高级应用，或者尝试结合其他领域进行跨界创新，相信你一定会有更多精彩的成果呈现给我们！期待你的下一篇作品，加油！
408复习（二）复试向
CSDN-Ada助手: 恭喜您在408复习系列博客中持续更新，希望您的复试向能够顺利进行！建议您在未来的创作中，可以分享一些复试经验和技巧，或者结合自身经历，给读者提供更多实用的指导和启发。加油！期待您更多精彩的文章！
梯度消失与梯度爆炸
CSDN-Ada助手: 恭喜作者发布第6篇博客！标题“梯度消失与梯度爆炸”非常吸引人，内容肯定也十分精彩。建议作者在下一篇博客中可以深入探讨如何解决梯度消失和梯度爆炸问题，或者分享一些实践经验和案例分析，让读者更加深入了解这个话题。期待作者的下一篇作品！
RNN学习笔记（二）
CSDN-Ada助手: 恭喜您写了第5篇博客！看完《RNN学习笔记（二）》后，我觉得您对RNN的理解越来越深入了。希望您能继续坚持创作，不断分享自己的学习心得。下一步可以考虑深入研究RNN在自然语言处理领域的应用，或者探讨RNN与其他深度学习模型的结合等方面的内容。期待您更多精彩的分享！愿您在学习和写作的道路上越走越远，不断进步！
RNN学习笔记（一）
CSDN-Ada助手: 恭喜您发布了第四篇博客“RNN学习笔记”！持续创作是提升自身知识水平的好方法，希望您能够坚持下去，不断分享您的学习心得和经验。下一步建议可以尝试深入研究RNN的应用领域，比如自然语言处理或时间序列预测等方面，相信您能够有更多有价值的内容分享给读者。期待您的更多精彩作品！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。