神经网络中的模型优化-梯度消失、局部最优及鞍点

最新推荐文章于 2023-08-17 15:08:35 发布

与其等风来，不如追风去

最新推荐文章于 2023-08-17 15:08:35 发布

阅读量1.7k

点赞数 1

分类专栏：深入浅出图神经网络图神经网络文章标签：神经网络深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_47195879/article/details/123476594

版权

深入浅出图神经网络同时被 2 个专栏收录

8 篇文章 0 订阅

订阅专栏

图神经网络

8 篇文章 0 订阅

订阅专栏

上图为在反向传播过程中推理得出的误差项公式，详见：神经网络中的反向传播https://blog.csdn.net/weixin_47195879/article/details/123475894?spm=1001.2014.3001.5502

可以看到第l层的误差是根据第l+1层的误差与两层之间的权重加权，再乘以激活函数的导数得到。如果使用Sigmod激活函数，该激活函数的最大导数值为0.25，说明：当层数增加，最后一层的误差将在前面的层中快速衰减，这会导致靠近输入层的梯度值非常小，参数几乎无法进行有效的更新。在下一次向前传播时，有前面层的参数无法有效的从数据中获取有价值的信息供后面的层使用，模型就难以进行有效的训练。该种现象成为梯度消失。

梯度消失的原因在于激活函数的饱和性，比如sigmod,tanh等，他们的函数值趋近于上下边界时，梯度就会变得比较小。所以现在的神经网络一般使用ReLU激活函数。

-参考《深入浅出图神经网络》

局部最优：损失函数为凸，但是和参数之间的关系非凸。模型通常有很多局部最优解。

鞍点：梯度为0的点，但是并不是最大或者最小值。当处于鞍点区域并且误差较大，梯度较小，所以收敛速度会被影响，同时会造成陷入局部最优解的假象。

与其等风来，不如追风去

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
神经网络中的模型优化-梯度消失、局部最优及鞍点

参考《深入浅出图神经网络》对梯度消失、局部最优解、鞍点等做简单介绍。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。