梯度下降原理解析

最新推荐文章于 2022-09-09 12:15:00 发布

O天涯海阁O

最新推荐文章于 2022-09-09 12:15:00 发布

阅读量449

点赞数

分类专栏：数学知识文章标签：机器学习

原文链接：https://zhuanlan.zhihu.com/p/36564434

版权

数学知识专栏收录该内容

12 篇文章 3 订阅

订阅专栏

1 原理

在机器学习的核心内容就是把数据喂给一个人工设计的模型，然后让模型自动的“学习”，从而优化模型自身的各种参数，最终使得在某一组参数下该模型能够最佳的匹配该学习任务。那么这个“学习”的过程就是机器学习算法的关键。梯度下降法就是实现该“学习”过程的一种最常见的方式，尤其是在深度学习(神经网络)模型中，BP反向传播方法的核心就是对每层的权重参数不断使用梯度下降来进行优化。

梯度下降法(gradient descent)是一种常用的一阶(first-order)优化方法，是求解无约束优化问题最简单、最经典的方法之一。我们来考虑一个无约束优化问题 [公式] , 其中为连续可微函数，如果我们能够构造一个序列，并能够满足：

[公式]

那么我们就能够不断执行该过程即可收敛到局部极小点，可参考下图。

寻找最小点过程

寻找最小点过程

那么问题就是如何找到下一个点 [公式] ,并保证呢？假设我们当前的函数的形式是上图的形状，现在我们随机找了一个初始的点，对于一元函数来说，函数值只会随着的变化而变化，那么我们就设计下一个是从上一个沿着某一方向走一小步得到的。此处的关键问题就是：这一小步的方向是朝向哪里？

对于一元函数来说， [公式] 是会存在两个方向：要么是正方向( )，要么是负方向（），如何选择每一步的方向，就需要用到大名鼎鼎的泰勒公式，先看一下下面这个泰勒展式：

[公式]

左边就是当前的 [公式] 移动一小步之后的下一个点位，它近似等于右边。前面我们说了关键问题是找到一个方向，使得，那么根据上面的泰勒展式，显然我们需要保证：

[公式]

可选择令：

[公式]

其中步长 [公式] 是一个较小的正数，从而： .

由于任何不为0的数的平方均大于0因此保证了 [公式] .

从而，设定：

[公式] ,

则可保证：

[公式]

那么更新 [公式] 的计算方式就很简单了，可按如下公式更新

[公式]

这就是所谓的沿负梯度方向走一小步。

到此为止，这就是梯度下降的全部原理。

如果稍有不清楚的地方，再用下图重新回顾一下具体的设计过程：

梯度下降法的设计过程

梯度下降法的设计过程

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。