一文弄懂梯度下降

江边鸟----仕之

已于 2024-03-15 00:01:23 修改

阅读量824

点赞数 18

分类专栏： python 文章标签：机器学习深度学习 python

于 2024-02-23 16:55:47 首次发布

本文链接：https://blog.csdn.net/weixin_58465955/article/details/136260094

版权

python 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

完整实现代码

import numpy as np
from matplotlib import pyplot as plt
 
 
def show_iter_process(w, b, train_x, train_y, i):
    # 可视化迭代情况
    if i%10==0:
        predict_y = w[0]*train_x**2 + w[1]*train_x + b
        plt.plot(train_x, train_y)
        plt.plot(train_x, predict_y)
        plt.legend(['true', 'predict'], loc='upper right')
        plt.show(block=False)
        plt.pause(0.5)  # 显示0.5秒
        plt.close()
 
def create_data():
    """根据函数 y=2x²+500 生成100个数据点"""
    x = np.linspace(0, 15, 100)   # x不要有负值, 现实数据都是正值
    y = 2*x**2 + 500
    return x,y
 
def grad_test(train_x, train_y):
    """猜测数据模型为 y=ax²+bx+c, 用梯度下降法, 更新猜测模型的参数使得逼近目标函数 y=2x²+500"""

    # 虽然输入数据只有一个 特征值x, 但我们假设 数据有两个 特征值x²和x, 所以扩张输入数据为两个属性. 
    # 这种扩张不增加输入数据的维度, 因为两个属性x²和x具有关联性
    train_x_expand = np.array([[x**2, x] for x in train_x])
    w = [1,1]                   # 初始化权重
    b = 1                       # 初始化偏置
    lrate = [0.001, 0.000001]  # [b的学习率, w的学习率]. 可以体验调参的重要性
    update_times = 1000         # 迭代次数
 
    old_loss = []               # 记录上一次误差损失, 当迭代出现损失值不降时停止迭代
    for i in range(update_times):
        # 梯度, b偏置部分
        grad_b = (np.dot(train_x_expand, w) + b - train_y).sum()
        # 梯度, w权重部分
        grad_w = np.dot(np.dot(train_x_expand, w) + b - train_y, train_x_expand)
 
        # 更新w,b
        b = b - lrate[0] * grad_b, 2
        w = w - lrate[1] * grad_w, 2
 
        # 计算平方误差
        loss = ((np.dot(train_x_expand, w) + b - train_y)**2).sum()
        # print("loss:", round(loss, 2))
 
        if not old_loss:
            old_loss.append(loss)
        elif loss == old_loss[-1]:
            print("迭代次数:", i, "最优损失值:", loss)
            return w,b,old_loss
        else:
            # print("迭代次数:", i, "损失值:", loss)
            # 可视化迭代情况
            show_iter_process(w, b, train_x, train_y, i)
            old_loss.append(loss)

    return w,b,old_loss

train_x, train_y = create_data()
w,b,loss_line = grad_test(train_x, train_y)
print(f"最优参数: w = {w}, b = {b}")
print(f"预测函数: y = {w[0]}x² + {w[1]}x + {b}")

# 损失值变化曲线
# plt.plot(range(len(loss_line)), loss_line)
# plt.xlabel("iter times")
# plt.ylabel("loss")
# plt.show()


# 原数据真实曲线及预测曲线
predict_y = w[0]*train_x**2 + w[1]*train_x + b
plt.plot(train_x, train_y)
plt.plot(train_x, predict_y)
plt.legend(['true', 'predict'], loc='upper right')
plt.show()

核心公式

$b_{new}=b_{old}-\eta (\overset{\wedge }{Y}-Y)$

$w_{new}=w_{old}-\eta (\overset{\wedge }{Y}-Y)X$

学习率η>0，X、Y是矩阵， $\overset{\wedge }{Y}$ 是预测结果

公式含义的讨论

①b = b-(y测-y实)

讨论这种情况

这种情况说明预测结果高于实际值，需要将预测函数下移

回到公式 $b_{new}=b_{old}-\eta (\overset{\wedge }{Y}-Y)$ ，对照图像，因为 $\overset{\wedge }{y}$ 的平均值> $y$ 的平均值，

所以 $b_{new}$ < $b_{old}$

推论:b↑则y测上移，b↓则y测下移

②w = w-(y测-y实)X

讨论这种情况

假设 $\overset{\wedge }{Y}$ 与 $Y$ 关于交点对称， $x_a$ 与 $x_c$ 关于 $x_b$ 对称，即 $\sum (\overset{\wedge }{Y}-Y)$ = 0

这种情况预测函数需要逆时针转一定角度才能跟上实际函数

回到公式 $w_{new}=w_{old}-\eta (\overset{\wedge }{Y}-Y)X$ ，结合图像，有：

$d_a=\left | \overset{\wedge }{y}-y \right |=d_c$

$0<d_a\cdot x_a<d_c\cdot x_c$

$-\eta (\overset{\vee }{y}-y)x_a<0$

$-\eta (\overset{\vee }{y}-y)x_c>0$

所以 $w_{new}$ > $w_{old}$

推论：w↑则y测逆时针转

③推理合理性讨论

用y=kx+b验证：

b↑则y↑，所以①中推论合理
k↑（斜率增加），函数图像逆时针转，所以②的推论合理

详细公式推理

设函数关系为

$y=w1x1+w2x2+b$

损失值计算方法为

$L =\sum_{i=1}^{M} {(\overset{\wedge ^{}}{y}- y)}^2$

$x1,x2,y$ 是已知量，需要求解的是：当 $w,b$ 取什么值时，损失值 $L$ 最小

根据损失计算方法，设损失函数设为

$f_{loss}(w,b) = (w_1x_1+w_2x_2+b - y)^2$

初始化 $w1,w2,b$ 值为1，计算损失值 $L$ ，以梯度下降法更新 $w1,w2,b$ 的值，使得 $L$ 降低。

一阶泰勒展开公式：

$f(x)\approx f(x0)+(x-x_0)f^{'}(x_0)$

则

$f_{loss}(w)\approx f{loss}(w_0)+(w-w_0)f_{loss}^{'}(w_0)$ ①

$f_{loss}(b)\approx f_{loss}(b_0)+(b-b_0)f_{loss}^{'}(b_0)$ ②

①②应该用一个式子写，但为了清晰，拆成两个式子

合并写法是：

$f_{loss}(w,b)\approx f_{loss}(w_0,b_0)+((w,b)-(w_0,b_0))f_{loss}^{'}(w_0,b_0)$

目标是降低 $f{loss}(w,b)$ 的值，也就是 $f_{loss}(w,b)<f_{loss}(w_0,b_0)$

(这里的数学解释非常不专业) $f_{loss}^{'}(w_0,b_0)$ 的最大值是梯度值，我个人把梯度值理解为广义的正值，负梯度值是广义的负值，且 |偏导值|≤梯度值

所以，对①式，要使 $f$ 降低，可令

$(x-x0)\triangledown f(x0)=-\left \| \triangledown f(x_0) \right \|$

【 $\triangledown f(x_0)=\left \| \triangledown f(x_0) \right \|*\overset{\rightarrow }{r}$ 其中 $\underset{r}{\rightarrow}$ 是梯度方向】

两边乘以▽ $f$ ，然后两边除以▽ $f$ 的模得：

$x-x_0 = -{\frac{\triangledown f}{\left \| \triangledown f \right \|} }$

令 $\frac{1}{\left \| \triangledown f \right \|}= \eta$ 【学习率η>0,通常取0.01】

所以更新 $w,b$ 的公式为：

$w=w_0-\eta {\partial f(w,b)\over \partial w}\mid_{w=w0}$ 【这里的 $w$ 和 $w_0$ 是多维的】

$b=b_0-\eta {\partial f(w,b)\over \partial b}\mid_{b=b_0}$

理解为： $w$ 比 $w_0$ 小了0.01倍梯度值

$f_{loss}(w,b) = (w_1x_1+w_2x_2+b - y)^2$

求偏导举例

${\partial f(w,b)\over \partial w_1}=2(w_1x_1+w_2x_2+b - y)x_1$

更新 $w,b$ 公式举例：

$w_1=w_1-\eta(w_1x_1+...+w_nx_n+b-y)x_1$

$w_n=w_n-\eta(w_1x_1+...+w_nx_n+b-y)x_n$

$b=b-\eta(w_1x_1+...+w_nx_n+b-y)$

求导结果中的“2”归入学习率，或者说忽略常数“2”

x = (x1，…，xn)是一个样例，这个样例有n个属性值

所以上述更新公式只针对单个数据样例，为了在所用数据上使用该公式，需要调整

以 $w_1$ 举例

$w_1=w_1-\eta \sum k$

$k_1=(w_1x_{11}+...+w_nx_{1n}+b-y)x_{11}$

$k_2=(w_1x_{21}+...+w_nx_{2n}+b-y)x_{21}$

针对所有样例求 $k_i$ ，并求和，然后更新 $w_1$ 。更新 $w_n,b$ 同理

公式-矩阵形式 n个属性值

公式对应代码

# train_x 形如 [ [  0.   0.]
                 [ 25.   5.]
                 [100.  10.]
                 [225.  15.]]
# train_y 形如 [  5.  55. 205. 455.]
# 注：train_x**2表示样例的第一个属性值是x²，train_x表示样例的第二个属性值是x
for i in range(update_times):
        # 梯度, b偏置部分
        grad_b = (np.dot(train_x_expand, w) + b - train_y).sum()
        # 梯度, w权重部分
        grad_w = np.dot(np.dot(train_x_expand, w) + b - train_y, train_x_expand)
 
        # 更新w,b
        b = b - lrate[0] * grad_b, 2
        w = w - lrate[1] * grad_w, 2