一、实验准备
实验目的:
- 1.用梯度下降法手工求解函数的极小值点 f ( x ) = f ( x 1 , x 2 ) = 1 3 x 1 2 + 1 2 x 2 2 f(x)=f(x_1,x_2)=\frac13x_1^2+\frac12x_2^2 f(x)=f(x1,x2)=31x12+21x22
- 2.在Excel里用梯度下降法求解函数的近似根 z = 2 ( x − 1 ) 2 + y 2 z=2(x-1)^2+y^2 z=2(x−1)2+y2
- 3.用最小二乘法求解和梯度下降法求解线性回归问题
调试、运行并详细注解文中的梯度下降法求解回归方程的python代码,对获得的结果与最小二乘法的结果进行对比。参考:
实验环境:
- Excel
- Jupyter
二、梯度下降法
概述
梯度下降(gradient
descent)在机器学习中应用十分的广泛,不论是在线性回归还是Logistic回归中,它的主要目的是通过迭代找到目标函数的最小值,或者收敛到最小值。
场景实现
梯度下降法的基本思想可以类比为一个下山的过程。
假设这样一个场景:一个人被困在山上,需要从山上下来(找到山的最低点,也就是山谷)。但此时山上的浓雾很大,导致可视度很低;因此,下山的路径就无法确定,必须利用自己周围的信息一步一步地找到下山的路。这个时候,便可利用梯度下降算法来帮助自己下山。
首先以他当前的所处的位置为基准,寻找这个位置最陡峭的地方,然后朝着下降方向走一步,然后又继续以当前位置为基准,再找最陡峭的地方,再走直到最后到达最低处;同理上山也是如此,只是这时候就变成梯度上升算法了。
梯度
梯度是微积分中一个很重要的概念,梯度的意义为:
- 在单变量的函数中,梯度其实就是函数的微分,代表着函数在某个给定点的切线的斜率
- 在多变量函数中,梯度是一个向量,向量有方向,梯度的方向就指出了函数在给定点的上升最快的方向
我们需要到达山底,就需要在每一步观测到此时最陡峭的地方,梯度就恰巧告诉了我们这个方向。梯度的方向是函数在给定点上升最快的方向,那么梯度的反方向就是函数在给定点下降最快的方向,这正是我们所需要的。所以只要沿着梯度的方向一直走,就能走到局部的最低点!
三、极小值点问题(手工求解)
用梯度下降法手工求解函数的极小值点 f ( x ) = f ( x 1 , x 2 ) = 1 3 x 1 2 + 1 2 x 2 2 f(x)=f(x_1,x_2)=\frac13x_1^2+\frac12x_2^2 f(x)=f(x1,x2)=31x12+21x22
- 设置初始点与学习率
- 计算初始点的梯度
- 更新迭代公式
四、近似根问题(Excel)
在Excel里用梯度下降法求解函数的近似根 z = 2 ( x − 1 ) 2 + y 2 z=2(x-1)^2+y^2 z=2(x−1)2+y2
设置表格
设置(x,y)初始值为(2,1),其它地方输入相应的公式:
迭代结果如下
其近似值为(1,0)
五、线性回归问题(Python)
1. 最小二乘法
设置数据
from numpy import *
# 定义数据集的大小 即20个数据点
m = 20
# x的坐标以及对应的矩阵
X0 = np.ones((m, 1)) # 生成一个m行1列的向量,其值全是1
X1 = np.arange(1, m+1).reshape(m, 1) # 生成一个m行1列的向量,也就是x1,从1到m
X = np.hstack((X0, X1)) # 按照列堆叠形成数组,其实就是样本数据
# 对应的y坐标
Y = np.array([
3, 4, 5, 5, 2, 4, 7, 8, 11, 8, 12,
11, 13, 13, 16, 17, 18, 17, 19, 21
]).reshape(m, 1)
线性回归
model = linear_model.LinearRegression()
model.fit(X1,Y)
print("斜率=",model.coef_[0])
print("截距为=",model.intercept_)
图像绘制
def plot(X, Y, theta):
ax = plt.subplot(111) # 将画布分为1行1列,取第一个
ax.scatter(X, Y, s=30, c="blue", marker="s")
plt.xlabel("X")
plt.ylabel("Y")
x = arange(0, 21, 0.2) # x的范围
y = model.intercept_+ model.coef_[0]*x
ax.plot(x, y)
plt.show()
plot(X1, Y, model.coef_[0])
2. 梯度下降法
设置数据
from numpy import *
# 定义数据集的大小 即20个数据点
m = 20
# x的坐标以及对应的矩阵
X0 = ones((m, 1)) # 生成一个m行1列的向量,其值全是1
X1 = arange(1, m+1).reshape(m, 1) # 生成一个m行1列的向量,也就是x1,从1到m
X = hstack((X0, X1)) # 按照列堆叠形成数组,其实就是样本数据
# 对应的y坐标
Y = np.array([
3, 4, 5, 5, 2, 4, 7, 8, 11, 8, 12,
11, 13, 13, 16, 17, 18, 17, 19, 21
]).reshape(m, 1)
# 学习率
alpha = 0.01
import matplotlib.pyplot as plt
#绘制出数据集
plt.scatter(X1,Y,color='red')
plt.show()
梯度下降迭代
# 定义代价函数
#损失函数(loss function)或代价函数(cost function)是将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“风险”或“损失”的函数
def cost_function(theta, X, Y):
diff = dot(X, theta) - Y # dot() 数组需要像矩阵那样相乘,就需要用到dot()
return (1/(2*m)) * dot(diff.transpose(), diff)
# 定义代价函数对应的梯度函数
def gradient_function(theta, X, Y):
diff = dot(X, theta) - Y
return (1/m) * dot(X.transpose(), diff)
# 梯度下降迭代
def gradient_descent(X, Y, alpha):
#将[1,1]变为2行1列的形式
theta = array([1, 1]).reshape(2, 1)
#得到代价函数的初始梯度
gradient = gradient_function(theta, X, Y)
#不断迭代的过程
while not all(abs(gradient) <= 1e-5):
#更新迭代公式
theta = theta - alpha * gradient
#更新迭代所用的梯度
gradient = gradient_function(theta, X, Y)
return theta
#梯度下降最终的结果
optimal = gradient_descent(X, Y, alpha)
print('optimal:', optimal)
print('cost function:', cost_function(optimal, X, Y)[0][0])
图像绘制
# 根据数据画出对应的图像
def plot(X, Y, theta):
ax = plt.subplot(111) # 将画布分为1行1列,取第一个
ax.scatter(X, Y, s=30, c="red", marker="s")
plt.xlabel("X")
plt.ylabel("Y")
x = arange(0, 21, 0.2) # x的范围
y = theta[0] + theta[1]*x
ax.plot(x, y)
plt.show()
plot(X1, Y, optimal)
六、参考
①机器学习算法:梯度下降法——原理篇
②深入浅出–梯度下降法及其实现
③梯度下降算法原理讲解——机器学习
④Excel 和 python 使用梯度下降法分别求【极小值点】【线性回归问题】