Datawhale X 李宏毅苹果书AI夏令营 Task 1 学习笔记

《深度学习详解》- 3.1 局部极小值与鞍点

摘要

在深度学习模型的训练过程中,优化算法经常会在损失函数的局部极小值或鞍点停滞不前。本文档总结了局部极小值与鞍点的定义及其在深度学习中的表现,探讨了判断临界点种类的方法,及如何逃离鞍点的策略。通过对高维空间中的鞍点现象进行分析,本文阐述了在深度学习训练中局部极小值并不常见,鞍点才是主要挑战。

局部极小值与鞍点的概念

局部极小值是指在参数空间中的某一点,其周围的损失值都比该点高。而鞍点则是指在某一方向上损失较高,但在另一方向上损失较低的点。

我们可能会将鞍点误认为局部最小值。有时在训练过程中,梯度接近零时,可能会误以为模型已经收敛到了局部最小值。然而,这个点可能实际上是鞍点,而不是局部最小值。

实际上,鞍点的特性是其梯度为零,但在某些方向上,它并不是损失最小的点。例如,在某个方向上,损失函数可能会变大,但在另一个方向上,损失函数可能会继续下降。因此,梯度为零并不一定意味着模型达到了局部最小值。

临界点的种类和判断方法

局部极小值是指在该点附近的所有方向上,损失函数的值都比这个点的损失函数值大。也就是说,模型在该点的损失最小,周围的损失值都较高。在局部极小值处,参数更新停止,模型达到一个相对稳定的状态。

局部极大值是指在该点附近的所有方向上,损失函数的值都比这个点的损失函数值小。也就是说,模型在该点的损失最大,周围的损失值都较低。局部极大值虽然在实际优化中不常见,但也会导致参数更新停止,模型陷入非理想的状态。

鞍点是指在某些方向上,损失函数的值比该点的损失值小,而在其他方向上,损失函数的值比该点的损失值大。换句话说,鞍点在某些方向上表现为极小值,而在其他方向上表现为极大值。鞍点虽然梯度为零,但在某些方向上仍然有下降的空间,因此它比局部极小值更具有挑战性,因为模型可能停滞在鞍点附近。

逃离鞍点

随机梯度下降法通过使用部分训练样本(即mini-batch)来更新参数,引入了随机性。这种随机性有助于在训练过程中使参数跳出鞍点,因为每次参数更新都会有微小的随机扰动。

二阶优化方法(如牛顿法)通过使用损失函数的二阶导数信息(如海森矩阵)来进行参数更新。虽然计算复杂度较高,但可以更精确地找到跳出鞍点的方向。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值