【Datawhale X 李宏毅苹果书 AI夏令营】第三章学习笔记

最新推荐文章于 2024-08-27 23:04:44 发布

yagi2016

最新推荐文章于 2024-08-27 23:04:44 发布

阅读量202

点赞数

分类专栏： AI人工智能文章标签：人工智能学习笔记

本文链接：https://blog.csdn.net/yagi2016/article/details/141614041

版权

AI人工智能专栏收录该内容

2 篇文章 0 订阅

订阅专栏

【概念辨析】

术语	定义	个人理解
局部极小值（local minimum）	区别于全局最小值，梯度为零且在局部损失最小的点	在局部范围内，在所有方向上均无法使损失函数下降的点
鞍点（saddle point）	梯度是零且区别于局部极小值和局部极大值（localmaximum）的点	在某些方向上，损失处于最低，但某些方向上损失处于较高的情况
临界点（critical point）	梯度为零的点	在某个（些）方向上的增长量为0的点
批量梯度下降法（Batch Gradient Descent，BGD）	使用全批量（fullbatch）的数据来更新参数的方法
随机梯度下降法（Stochastic Gradient Descent，SGD）	当批量大小等于 1时使用的方法

【判断临界值种类的方法】

我们可以根据 12θ − θ′T Hθ − θ′来判断在 θ′ 附近的误差表面（error surface）到底长什么样子。知道误差表面的“地貌”，我们就可以判断 L(θ′) 是局部极小值、局部极大值，还是鞍点。

为了符号简洁，我们用向量 v 来表示 θ − θ′，θ − θ′T Hθ − θ′可改写为 vTHv，有如下三种情况。

（1）如果对所有 v，vTHv > 0. 这意味着对任意 θ，L(θ) > L(θ′). 只要 θ 在 θ′ 附近，L(θ) 都大于 L(θ′). 这代表 L(θ′) 是附近的一个最低点，所以它是局部极小值。

（2）如果对所有 v，vTHv < 0. 这意味着对任意 θ，L(θ) < L(θ′)，θ′ 是附近最高的一个点，L(θ′) 是局部极大值。（3）如果对于 v，vTHv 有时候大于零，有时候小于零。这意味着在 θ′ 附近，有时候L(θ) > L(θ′)，有时候 L(θ) < L(θ′). 因此在 θ′ 附近，L(θ′) 既不是局部极大值，也不是局部极小值，而是鞍点。

算出一个海森矩阵后，不需要把它跟所有的 v 都乘乘看，只要看 H的特征值。若 H 的所有特征值都是正的，H 为正定矩阵，则 vTHv > 0，临界点是局部极小值。若 H 的所有特征值都是负的，H 为负定矩阵，则 vTHv < 0，临界点是局部极大值。若 H 的特征值有正有负，临界点是鞍点。

【逃离鞍点的方法】

升高维度，在低维情况下可能是一个局部极小值，但在高维情况下可能会成为一个鞍点。大多数实际场景中，局部极小值很少见。

【批量法】

小批量梯度下降与批量梯度下降的比较

评价标准	小批量梯度下降	批量梯度下降
一次更新的速度（没有并行计算）	相同	相同
一次更新的速度（有并行计算）	相同	相同（批量大小不是很大）
一个回合的时间	更慢	更快
梯度	有噪声	稳定
优化	更好	更坏
泛化	更好	更坏