梯度下降法

最新推荐文章于 2023-05-21 16:48:02 发布

wu_jiacheng

最新推荐文章于 2023-05-21 16:48:02 发布

阅读量224

点赞数

分类专栏：深度学习文章标签：机器学习

深度学习专栏收录该内容

21 篇文章 0 订阅

订阅专栏

梯度下降法(Gradient descent)

标签：机器学习

1.梯度下降法有什么用

梯度下降法用来求函数的极小值，且是一种迭代算法，由于计算效率高，在机器学习中常常使用。梯度下降法经常求凸函数(convex function)的极小值，因为凸函数只有一个极小值，使用梯度下降法求得的极小值就是最小值。

与其对应的有梯度上升法(Gradient ascent)，用来求函数的极大值，两种方法原理一样，只是计算的过程中正负号不同而已。

2.什么是梯度

先看看维基百科：

标量场中某一点的梯度指向在这点标量场增长最快的方向。

感觉略微抽象，可以用山的高度来解释一下。假设有一个人站在山上的某一点，他通过观察发现了一条“最陡”的路，那么这条路的方向就是梯度所指的方向。

需要强调一下，梯度是一个矢量，方向导数是一个标量，梯度所指向的方向是方向导数最大的方向，且梯度的模和方向导数的最大值相等。

求梯度的方法很简单，对每一个自变量求偏导数，然后将其偏导数作为自变量方向的坐标即可。梯度的符号为 ∇ ，则函数 f(x,y) 的梯度为：

\nabla f (x, y) = (\partial f ( x , y ) \partial x, \partial f ( x , y ) \partial y)

3.如何使用梯度下降法

以函数 f(x) 为例，先选择一个初始点，计算该点的梯度，然后按照梯度的方向更新自变量。若第 k 次迭代值为 x(k) ，则

x (k + 1) = x (k) - α \nabla f (x (k))

其中

α 称作步长或者学习率，表示自变量每次迭代变化的大小。

一直按照上式更新自变量，直到当函数值变化非常小（如3%以内）或者达到最大迭代次数时停止，此时认为自变量更新到函数的极小值点。

4.梯度下降法的简单应用

4.1求 f(x)=x2 的极小值

f(x)=x2 的梯度为：

\nabla f (x) = 2 x

步长设置为0.1，选取自变量从3开始，则计算过程如下

迭代次数(n)	自变量( x )	梯度( 2x )	步长( α )	因变量( x2 )
0	3	6	0.1	9
1	2.4	4.8	0.1	5.76
2	1.92	3.84	0.1	3.69
3	1.536	3.072	0.1	2.36
10	0.32	0.64	0.1	0.10
20	0.03	0.06	0.1	0.0009
…	…	…	…	…

可以看到随着迭代次数的增加，该函数越来越接近极小值点 (0,0) ，依据该方法一定可以找到精度允许范围内的极小值点。

以下是迭代count次的代码：

if __name__ == "__main__":
    x = 3
    y = x * x
    alpha = 0.1
    count = 3
    while (count > 0):
        x = x - alpha * 2 * x
        y = x * x
        count = count - 1
    print x, y
 
 1
2
3
4
5
6
7
8
9
10

4.2求 f(x,y)=(x−10)2+(y−10)2 的极小值

f(x,y)=(x−10)2+(y−10)2 的梯度为：

\nabla f (x, y) = (2 (x - 10), 2 (y - 10))

步长设置为0.1，选择初始点为

(20,20) ，这次以图形表示计算过程，图中的黑色曲线即为梯度下降法下降时的轨迹，效果非常好。
斜视图：

俯视图：

5.小结

梯度下降法求的是极小值，而不是最小值
梯度下降法常常用来求凸函数的最小值，例如机器学习中各种代价函数的最小值
步长的选取很关键，步长过长达不到极值点甚至会发散，步长太短导致收敛时间过长
斯坦福的机器学习视频中建议按照[0.001,0.003,0.01,0.03,…]的顺序尝试设置步长，同时观察函数值选择收敛最快的步长
步长也可以设置为非固定值，根据迭代的情况变化
下降的初始点一般设置为从原点开始

wu_jiacheng

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
梯度下降法

梯度下降法(Gradient descent)标签：机器学习1.梯度下降法有什么用梯度下降法用来求函数的极小值，且是一种迭代算法，由于计算效率高，在机器学习中常常使用。梯度下降法经常求凸函数(convex function)的极小值，因为凸函数只有一个极小值，使用梯度下降法求得的极小值就是最小值。与其对应的有梯度上升法(Gradient ascent)，用来求函数的极大值，两种方法原理一样，只是
复制链接

扫一扫