Excel和Python实现梯度下降法

最新推荐文章于 2021-10-20 19:06:18 发布

在下摸鱼怪

最新推荐文章于 2021-10-20 19:06:18 发布

阅读量1.3k

点赞数 3

分类专栏：机器学习文章标签：算法 python 机器学习 excel

本文链接：https://blog.csdn.net/xwmrqqq/article/details/115416581

版权

机器学习专栏收录该内容

7 篇文章 1 订阅

订阅专栏

文章目录

一、梯度下降法是什么

梯度下降法（Gradient Descent，GD）是一种常用的求解无约束最优化问题的方法，在最优化、统计学以及机器学习等领域有着广泛的应用。

梯度下降法的基本思想：梯度下降法(Gradient Descent) – 现代机器学习的血液

二、概念理解

1. 微分理解

我们所要优化的函数必须是一个连续可微的函数，可微，既可微分，意思是在函数的任意定义域上导数存在。如果导数存在且是连续函数，则原函数是连续可微的。

函数图像中，某点的切线的斜率
函数的变化率

例子：
$\frac{d(x^2)}{dx} = 2x \\ \frac{d(5-x)}{dx} = -2(5-x)$
多元连续可微函数求微分的例子：
$\frac{\partial}{\partial x}(x^2y^2) = 2xy^2 \\ \frac{\partial}{\partial y}(-2y^5 + z^2) = -10y^4 \\ \frac{\partial }{\partial x_2}[0.55 - (5x_1 + 2x_2 - 12x_3)] = -2$

2. 梯度理解

以二元函数 $z = f (x, y)$ 为例，假设其对每个变量都具有连续的一阶偏导数 $\frac{\partial z}{\partial x}$ 和 $\frac{\partial z}{\partial y}$ ，则这两个偏导数构成的向量 $[\frac{\partial z}{\partial x}, \frac{\partial z}{\partial y}]$ ，即为该二元函数的梯度向量，一般记作 $\nabla f(x,y)$ ，其中 $\nabla$ 读作“Nabla”。

例子：
$J(\Theta) = 0.55 - (5\theta_1 + 2\theta_2 - 12\theta_3) \\ \nabla J(\Theta) = [\frac{\partial J}{\partial \theta_1},\frac{\partial J}{\partial \theta_2},\frac{\partial J}{\partial \theta_3}]=[-5,-2,12]$
梯度的意义:

在单变量的函数中，梯度其实就是函数的微分，代表着函数在某个给定点的切线的斜率
在多变量函数中，梯度是一个向量，向量有方向，梯度的方向就指出了函数在给定点的上升最快的方向

从几何意义来讲，梯度的方向表示的是函数增加最快的方向，这正是我们下山要找的“最陡峭的方向”的反方向！因此后面要讲到的迭代公式中，梯度前面的符号为“-”，代表梯度方向的反方向。

3. 梯度下降法的数学解释

更多请参考：深入浅出–梯度下降法及其实现

三、梯度下降法手工求解

问题描述：

求函数 $f(x_1, x_2) = \frac{1}{3}x_1^2 + \frac{1}{2}x_2^2$ 的极小值点。

解：设初始点为 $X_1 = (3,2)$ ，学习率为 $\alpha$ 。

初始点处的梯度为 $\nabla f(X_1) = (\frac{2}{3} \times 3, \frac{2}{2} \times 2) = (2,2)$

因此更新迭代公式带入原函数中，得：

$f(X_2) = f(X_1 - \alpha\nabla f(X_1)) = \frac{10}{3}\alpha^2 - 8\alpha + 5$

此时， $\alpha_1^* = \frac{6}{5}$ 时，为函数极小点。

因此， $X_2 = X_1 - a_1^*=(\frac{3}{5},-\frac{2}{5})$ ，一次迭代结束。

然后，再将 $X_2$ 作为初始点，重复上面的迭代步骤，

得到： $X_3 = (\frac{3}{5^2}, \frac{2}{5^2})$

根据规律显然可知： $X_k = (\frac{3}{5^{k-1}},(-1)^{k-1}\frac{2}{5^{k-1}})$

例中目标函数 $f (X)$ 是三维空间中的椭圆抛物面，其投影至二维空间上的等高线是一簇椭圆（如下图所示）。 $f (X)$ 的极小点就是这簇椭圆的中心 $X^*=(0,0)$ 。我们求得的迭代公式 ${X_k\}$ 是逐渐趋近于 $X^*$ 的

在这里插入图片描述

四、Excel演示梯度下降法的数据变化

求解函数：
$z = 2(x-1)^2 + y^2$
可求出其梯度为：
$(\frac{\partial z}{\partial x},\frac{\partial z}{\partial y}) = (4x-4,2y)$
1. 初始设定

给出初始位置 $x_i,y_i),i=0$ 与学习率 $\alpha=0.1$

在这里插入图片描述

2. 计算位移量
$(\Delta x_i,\Delta y_i)= -\alpha(\frac{\partial z}{\partial x},\frac{\partial z}{\partial y}) = -\alpha(4x_i-4,2y_i)$
这个位移量可以看作是通过小步长来找出局部最小值

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-DM26LKX4-1617434635145)(E:%5Cdasan2%5C%E5%AE%9E%E9%AA%8C%E4%BD%9C%E4%B8%9A%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%5C%E6%A2%AF%E5%BA%A6%E4%B8%8B%E9%99%8D%E6%B3%95%5C1617427983658.png)]

3. 更新位置

当 i = 0时，将当前位置 $x_0,y_0)=(3,2)$ 与当前计算得到的位移偏移量 $(- 0.8, - 0.4)$ 相加得到 $(2.2, 1.6)$

即， $(x_{i+1},y_{i+1}) = (x_i,y_i)+(\Delta x_i,\Delta y_i)$

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-t6kUhOXC-1617434635148)(E:%5Cdasan2%5C%E5%AE%9E%E9%AA%8C%E4%BD%9C%E4%B8%9A%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%5C%E6%A2%AF%E5%BA%A6%E4%B8%8B%E9%99%8D%E6%B3%95%5C1617428518861.png)]

4. 反复执行2和3的操作

反复执行2和3的操作30次后，得到坐标 $x_{30},y_{30})$ 的值

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-WIq09hEA-1617434635150)(E:%5Cdasan2%5C%E5%AE%9E%E9%AA%8C%E4%BD%9C%E4%B8%9A%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%5C%E6%A2%AF%E5%BA%A6%E4%B8%8B%E9%99%8D%E6%B3%95%5C1617429134526.png)]

由此可以得出，函数 $z$ 在 (1,0) 处取得最小值 0

五、Python 编程实现

实验环境

Anaconda + python3.6 + jupyter

1. 导入所需库

# 导入所需库
import numpy as np
import matplotlib.pyplot as plt
import matplotlib as mpl
import math
from mpl_toolkits.mplot3d import Axes3D
import warnings

2. 函数定义

# 原函数
def Z(x,y):
    return 2*(x-1)**2 + y**2
# x方向上的梯度
def dx(x):
    return 4*x-4
# y方向上的梯度
def dy(y):
    return 2*y

3. 赋初值

# 初始值
X = x_0 = 3
Y = y_0 = 2
# 学习率
alpha = 0.1

4. 定义数据保存列表

# 保存梯度下降所经过的点
globalX = [x_0]
globalY = [y_0]
globalZ = [Z(x_0,y_0)]

5. 重复迭代30次

# 迭代30次
for i in range(30):
    temX = X - alpha * dx(X)
    temY = Y - alpha * dy(Y)
    temZ = Z(temX, temY)
    # X,Y 重新赋值
    X = temX
    Y = temY
    # 将新值存储起来
    globalX.append(temX)
    globalY.append(temY)
    globalZ.append(temZ)

6. 打印结果

# 打印结果
print(u"最终结果为:(x,y,z)=(%.5f, %.5f, %.5f)" % (X, Y, Z(X,Y)))
print(u"迭代过程中取值")
num = len(globalX)
for i in range(num):
    print(u"x%d=%.5f, y%d=%.5f, z%d=%.5f" % (i,globalX[i],i,globalY[i],i,globalZ[i]))

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-T8mWKnyU-1617434635152)(E:%5Cdasan2%5C%E5%AE%9E%E9%AA%8C%E4%BD%9C%E4%B8%9A%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%5C%E6%A2%AF%E5%BA%A6%E4%B8%8B%E9%99%8D%E6%B3%95%5C1617433717668.png)]

可见，函数 $z = 2(x-1)^2 + y^2$ 在 (1,0) 处取得最小值 0，结果跟excel分析的结果一致

7. 绘制过程图

%matplotlib inline
axisX = np.arange(-4,4,0.2)
axisY = np.arange(-4,4,0.2)
axisX, axisY = np.meshgrid(axisX, axisY) # 生成xv、yv，将axisX、axisY变成n*m的矩阵，方便后面绘图
valueZ = np.array(list(map(lambda t : Z(t[0],t[1]),zip(axisX.flatten(),axisY.flatten()))))
valueZ.shape = axisX.shape # 1600的Z图还原成原来的（40,40）
%matplotlib inline

#作图
fig = plt.figure(facecolor='w',figsize=(12,8))
ax = Axes3D(fig)
ax.plot_surface(axisX,axisY,valueZ,rstride=1,cstride=1,cmap=plt.cm.jet)
ax.plot(globalX,globalY,globalZ,'ko-')
ax.set_title(u'$ z=2×(x-1)^2 + y^2  $')
ax.set_xlabel(u'x')
ax.set_ylabel(u'y')
ax.set_zlabel('z')
plt.show()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kJK4XkGq-1617434635152)(E:%5Cdasan2%5C%E5%AE%9E%E9%AA%8C%E4%BD%9C%E4%B8%9A%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%5C%E6%A2%AF%E5%BA%A6%E4%B8%8B%E9%99%8D%E6%B3%95%5C1617434325653.png)]