李宏毅机器学习2022.7.15--梯度下降

本文介绍了梯度下降算法的基本原理,包括如何通过学习率调整优化过程,特别提到了Adagrad算法,它自适应地调整每个参数的学习率。还讲解了随机梯度下降的加速效果,以及特征缩放在优化中的重要性。最后讨论了梯度下降的数学理论基础,如泰勒展开式在损失函数简化中的应用,以及算法可能遇到的局限性,如局部极小值问题。
摘要由CSDN通过智能技术生成

梯度下降的介绍

在解决最优化的问题中
在这里插入图片描述
我们需要找到最小一组的θ,让损失函数越小越好。
首先任意选取w0和b0的值,对于w1和b1进行update:
在这里插入图片描述
η为学习率,人工设值。重复上面的步骤不停的更新wi和bi直到无变化。在update wi和bi的过程即为梯度下降。

偏微分部分为梯度部分
在这里插入图片描述

学习率η

学习率η的调整要适当刚好,过大容易卡在某一位置。过小则决定移动距离较小,结果出现的较慢。如图:
在这里插入图片描述
通常一开始的离距离最低点较大,可以选择η值较大,而随着移动距离最低点越来越近则可以适当的调低η的值。不同的参数需要不同的学习率。

Adagrad 算法

每个参数的学习率都把它除上之前微分的均方根,σ^t:之前参数的所有微分的均方根,对于每个参数都是不一样的。
在这里插入图片描述
g^ t 梯度越大。移动的距离越大,而σ^t 梯度越大,步子越小。二者之间有所矛盾。考虑跨参数的问题,所以最好的步伐应该是:一次微分/二次微分。和一次微分成正比,和二次微分成反比,二次微分较大,参数update比较大。考虑二次微分才能真实反映最低点的距离。
在这里插入图片描述

随机梯度下降

随机梯度下降法比之前的梯度下降更快,任意或按顺序选取一个X^n,计算损失函数后就update梯度。
在这里插入图片描述
一般的梯度下降一步可能包含多个例子,而随机梯度下降已经走了很多步。

特征缩放

将其输入特征范围缩放,使不同的特征范围相同。

当xi的输入值较大wi同样变化时,对输出值影响较大。从图中可以看出x2对损失函数的影响比较大,则w2处周围比较陡峭。
在这里插入图片描述

缩放方法

在这里插入图片描述

在第i个维度中计算器平均值mi,还有其标准差σi,然后用第r个例子中的第i个输入,减掉平均数 mi,然后除以标准差 σi,得到的结果是所有的维数都是 0,所有的方差都是1。

梯度下降数学理论基础

这里有一些地方还是不太明白,暂时备注

泰勒展开式

若 h(x)在x=x0点的某个领域内有无限阶导数(即无限可微分,infinitely differentiable),那么在此领域内有:
在这里插入图片描述
当x很接近x0时,有 h(x)≈h(x0)+h′(x0)(x−x0) 上式就是函数h(x)在x=x0点附近关于x的幂函数展开式,也叫泰勒展开式。

多元泰勒展开式

在这里插入图片描述
在这里插入图片描述
基于泰勒展开式,在(a,b)点的红色圆圈范围内,可以将损失函数用泰勒展开式进行简化:

在这里插入图片描述
从而得到
在这里插入图片描述
让损失函数最小 取(u,v)相反的方向
在这里插入图片描述
u和v带入:
在这里插入图片描述

泰勒展开式推到过程

在这里插入图片描述

梯度下降的限制

在梯度下降的过程中,由于偏微分等于0,容易停在非极小值的点。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值