Gradient Descent(梯度下降详解)

最新推荐文章于 2022-06-15 01:53:28 发布

ygpGoogle

最新推荐文章于 2022-06-15 01:53:28 发布

阅读量1.5k

点赞数 1

分类专栏：人工智能理论文章标签：机器学习深度学习人工智能

本文链接：https://blog.csdn.net/ygp12345/article/details/108856561

版权

人工智能理论专栏收录该内容

24 篇文章 5 订阅

订阅专栏

本文探讨了梯度下降法及其学习率调整，介绍了Adagrad如何动态改变学习率以适应不同参数的优化需求。此外，还阐述了随机梯度下降在加快训练速度方面的优势。同时，文章强调了特征缩放在机器学习中的重要性，以避免某些特征值过大影响模型训练。最后，通过理论分析和泰勒展开式解释了梯度下降的数学原理。

摘要由CSDN通过智能技术生成

文章目录

Review Gradient Descent

在这里插入图片描述我们看看上面的梯度是怎么算的？然后再看看下面的梯度下降，也就是把每一次的梯度都做以下迭代。

在这里插入图片描述
如上图所示，我们回想一下如何用梯度下降求最好的w和b。
这里我们使用θ1和θ2两个参数，我们让这俩随机赋初始值。η是学习率，具体每次迭代的公式已写出。L(θ)是损失函数。
【注】上述公式里面的那些符号就是求偏导和向量。。。。
在这里插入图片描述
红线是某一点的梯度方向，而蓝线是梯度下降的方向。

Tuning your learning rates

在这里插入图片描述
我们来调整我们的学习率，蓝线太小了，步长太小，走得慢，绿色比较大，可能到不了最低点，橘色太大了，直接爆了，只有红色刚好合适。

在这里插入图片描述
我们想一下，刚开始我们离最低点很远，我的学习率可以设置大一些，一段时间后，离最低点比较近了，学习率会慢慢变小。

Adagrad

在这里插入图片描述

Vallina Gradient descent就是普通的梯度下降，学习率η不变，Adagrad是一种比普通梯度下降更好的梯度下降，学习率会动态变化，η/一阶均方根。σ是之前对参数w求导的均方根，具体做法如下。
在这里插入图片描述如上图，约简的最终情况。

在这里插入图片描述

在这里插入图片描述如上图，可能会有一个争议。Adagrad的最终化简的式子里分子和分母如果分子增大，那么分母也会增大，那么最终结果又如何？？
如上图直观解释，g4在两种情况下会显得特别大和特别小，在g4特别大的情况下，上述式子分母很小，然后分子g4相对较大就形成了反差，同理在g4特别小的情况下，上述式子分母很大，但分子就显得很小了。

在这里插入图片描述上图有一个二次方程，求一阶导，然后将某一点的值带进去，所得结果越大，那么离最低点越远，该二次函数的最低点的x是-b/2a,那么x0到-b/2a的最好的步子就是一步到位，也就是x0+b/2a,由上图可以看到每次更新的梯度跟微分成正比。但不适用于多参数，如下图：我们不能跨参数比较,我们不能判断a和c谁离最低点近。
在这里插入图片描述那么我们来讨论一下二次微分。

我们可以看到，在w1方向上是比较缓的，所以他的二次微分较小，w2方向上比较陡，所以他的二次微分大。又因为最好的步子是|2ax0+b|/2a,这个2a就是二阶导，所以最好的步子就是一阶导/二阶导。如下图，在w1上有更小的二阶导，且a点的一阶导也小，相除得一个best step,同理c也可以得一个best step,这两个step就可以比较了(大致就这样理解，以前不能直接比较是因为不是同一个参数，现在可以比较了，是因为有了二阶导数反映了陡峭程度)
在这里插入图片描述
类比一下上述的说明。adagrad的分母为什么不能为二阶导，因为有时候函数太复杂，求一阶都要很长时间，所以找了一种可以等价于二阶导数的做法，也就是均方根，全程只用算一次微分g。如下图：

一次微分的均方根较小的情况下，越平缓，均方根越大的情况下越陡峭，这不就正好是二次微分的样子吗？？

Stochastic Gradient Descent

Make the training faster

在这里插入图片描述
如上图，普通的梯度下降里考虑的损失函数是将所有的训练样例一次性考虑进来，而stochastic gradient descent每次只考虑一个样例，计算出这一个的损失函数，然后去减少他的梯度。

如上图，左边的是一次性将所有样例考虑进来的梯度下降，右边是stochastic。花相同的时间，左边走一次到达蓝色的区域(越蓝越好)，而stochastic直接两次就到一个很好的位置。左边的传统方式将所有的样本都弄进来算，肯定会消耗大量时间，而右边每次只算一个样本，所以左边不太行。但是右边的方法由于是随机的，可能方向性不太靠谱，我们再看看下面的论述：