李宏毅机器学习(2021版)_P5-6:小梯度处理


在这里插入图片描述

相关资料

视频链接:https://www.bilibili.com/video/BV1JA411c7VT

原视频链接:https://speech.ee.ntu.edu.tw/~hylee/ml/2021-spring.html

Leeml-notes开源项目:https://github.com/datawhalechina/leeml-notes

1、优化失败原因 Optimization Fails

在这里插入图片描述

1.1、critical point

gradient is zero,梯度为0的点,称为critical point。包含两类,local minima,saddle point,如下:
在这里插入图片描述

1.2、数学解释

采用多元函数泰勒展开,𝐿(𝜽)在𝜽 = 𝜽′处展开如下:
在这里插入图片描述
g为函数梯度,为一个向量;H为函数的海森矩阵,表示对不同参数的二阶矩阵:
在这里插入图片描述
在critical point处,梯度g=0,简化如下:
在这里插入图片描述
Critical Point类型有三类,minima,maxima,Saddle point,依靠 𝒗 𝑇 𝐻 𝒗 𝒗^𝑇𝐻𝒗 vTHv大小判断:
𝒗 𝑇 𝐻 𝒗 𝒗^𝑇𝐻𝒗 vTHv>0:𝐿(𝜽)> 𝐿(𝜽′),minima
𝒗 𝑇 𝐻 𝒗 𝒗^𝑇𝐻𝒗 vTHv<0:𝐿(𝜽)< 𝐿(𝜽′),maxima
𝒗 𝑇 𝐻 𝒗 𝒗^𝑇𝐻𝒗 vTHv>0 及 <0:Saddle point
也可以通过H的特征值正负性判断三类特殊点。在这里插入图片描述举例: 𝑦 = 𝑤 1 𝑤 2 𝑥 𝑦 = 𝑤_1𝑤_2𝑥 y=w1w2x, 数据(1,1)
损失函数: 𝐿 = ( 𝑦 ^ − 𝑤 1 𝑤 2 𝑥 ) 2 = ( 1 − 𝑤 1 𝑤 2 ) 2 𝐿= (\hat𝑦 − 𝑤_1𝑤_2𝑥)^2 = (1- 𝑤_1𝑤_2)^2 L=(y^w1w2x)2=(1w1w2)2;
计算g与H如下:
在这里插入图片描述

1.3、鞍点处理

依靠海森矩阵H确定鞍点优化方向,𝐻 may tell us parameter update direction。数学的假设推理如下:
在这里插入图片描述
寻找海森矩阵H的一个负的特征向量u,即为L下降方向。
举例:
上述函数,找到鞍点并且寻找下降方向:

  • 在(0,0),海森矩阵H特征值2,-2。有正负,判断(0,0)为鞍点。
  • 选取海森矩阵H特征值-2对应的一个特征向量𝒖 = [1, 1],即为更新方向。
    但是,因为计算量比较大,上述方法比较少用。
    在这里插入图片描述

1.4、临界点数量比例

在这里插入图片描述
M i n i m u m r a t i o = N u m b e r    o f    P o s i t i v e    E i g e n    v a l u e s N u m b e r    o f    E i g e n    v a l u e s Minimum ratio = \frac {Number \; of \; Positive \; Eigen \;values} {Number\; of \;Eigen \;values} Minimumratio=NumberofEigenvaluesNumberofPositiveEigenvalues
上图中,通过实证研究,大部分的critical point为鞍点,local minima很少(横坐标1处,为绝对minima)。

2、Batch and Momentum

2.1、Batch 批次

一个训练epoch分为数个batch,每一个batch均可以对损失函数参数 θ \theta θ进行更新。每个epoch的batch均会重新分配。
在这里插入图片描述

2.2、Small Batch v.s. Large Batch

2.2.1、计算速度

采用GPU并行计算,小批次和大批次在一定范围内耗时基本一致:
在这里插入图片描述
但是不同batch之间转换需要更多时间,所以小批次epoch内需要时间更长:
在这里插入图片描述

2.2.2、训练优化效果

大批次训练,容易导致优化错误(Optimization Fails);小批次训练性能更好:
在这里插入图片描述
原因:大批次参数更新次数少,容错率低;小批次参数更新的次数多,可以有更多可能跳出local minima。
在这里插入图片描述

2.2.3、测试检测效果

小批量测试数据要好,实验结果如下:SB表示小批次,LB表示大批次。
在这里插入图片描述
原因仍然是参数更新的问题,train与test的损失函数,认为有一定平移;小批次更容易陷入Sharp Minima,无法更新:
在这里插入图片描述

2.2.4、综合比对

在这里插入图片描述

2.3、Momentum

Momentum:学习率动量,在更新参数时,不仅考虑函数的梯度,也考虑之前更新的各个梯度方向:
𝒎 t = λ 𝒎 t − 1 − η 𝒈 t − 1 𝒎^t = \lambda 𝒎^{t-1} − \eta 𝒈^{t-1} mt=λmt1ηgt1
综合考虑梯度下降和学习率动量,参数更新如下:在这里插入图片描述
在计算中,可以发现,动量 m i m^i mi包含 g 0 g^0 g0 g i g^i gi的各个权重之和;
𝒎 i = − ( λ i − 1 η g 0 + λ i − 2 η 2 g 1 + . . . + λ η i − 1 g i − 2 ) − η g i − 1 𝒎^i = -(\lambda^{i-1} \eta g^0 + \lambda^{i-2} \eta^2 g^1+...+\lambda \eta^{i-1} g^{i-2})-\eta g^{i-1} mi=(λi1ηg0+λi2η2g1+...+ληi1gi2)ηgi1

3、结论

  • 临界点Critical points出梯度为0。
  • 临界点可以是鞍点和局部最小值。
    可以由海赛矩阵H决定。
    可以沿着海赛矩阵的特征向量的方向逃脱鞍点。
    局部最小值可能是罕见的。
  • 小批量和动量更新有助于逃脱临界点。
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值