Datawhale X 李宏毅苹果书AI夏令营 Task 1 学习笔记

最新推荐文章于 2024-10-03 15:21:42 发布

ybai34

最新推荐文章于 2024-10-03 15:21:42 发布

阅读量298

点赞数 10

文章标签：人工智能学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ybai34/article/details/141600982

版权

《深度学习详解》- 3.1 局部极小值与鞍点

摘要

在深度学习模型的训练过程中，优化算法经常会在损失函数的局部极小值或鞍点停滞不前。本文档总结了局部极小值与鞍点的定义及其在深度学习中的表现，探讨了判断临界点种类的方法，及如何逃离鞍点的策略。通过对高维空间中的鞍点现象进行分析，本文阐述了在深度学习训练中局部极小值并不常见，鞍点才是主要挑战。

局部极小值与鞍点的概念

局部极小值是指在参数空间中的某一点，其周围的损失值都比该点高。而鞍点则是指在某一方向上损失较高，但在另一方向上损失较低的点。

我们可能会将鞍点误认为局部最小值。有时在训练过程中，梯度接近零时，可能会误以为模型已经收敛到了局部最小值。然而，这个点可能实际上是鞍点，而不是局部最小值。

实际上，鞍点的特性是其梯度为零，但在某些方向上，它并不是损失最小的点。例如，在某个方向上，损失函数可能会变大，但在另一个方向上，损失函数可能会继续下降。因此，梯度为零并不一定意味着模型达到了局部最小值。

临界点的种类和判断方法

局部极小值是指在该点附近的所有方向上，损失函数的值都比这个点的损失函数值大。也就是说，模型在该点的损失最小，周围的损失值都较高。在局部极小值处，参数更新停止，模型达到一个相对稳定的状态。

局部极大值是指在该点附近的所有方向上，损失函数的值都比这个点的损失函数值小。也就是说，模型在该点的损失最大，周围的损失值都较低。局部极大值虽然在实际优化中不常见，但也会导致参数更新停止，模型陷入非理想的状态。

鞍点是指在某些方向上，损失函数的值比该点的损失值小，而在其他方向上，损失函数的值比该点的损失值大。换句话说，鞍点在某些方向上表现为极小值，而在其他方向上表现为极大值。鞍点虽然梯度为零，但在某些方向上仍然有下降的空间，因此它比局部极小值更具有挑战性，因为模型可能停滞在鞍点附近。

逃离鞍点

随机梯度下降法通过使用部分训练样本（即mini-batch）来更新参数，引入了随机性。这种随机性有助于在训练过程中使参数跳出鞍点，因为每次参数更新都会有微小的随机扰动。

二阶优化方法（如牛顿法）通过使用损失函数的二阶导数信息（如海森矩阵）来进行参数更新。虽然计算复杂度较高，但可以更精确地找到跳出鞍点的方向。

关注

10
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。