欣小白的点滴 ——梯度下降

最新推荐文章于 2024-07-31 14:47:45 发布

xinsunny

最新推荐文章于 2024-07-31 14:47:45 发布

阅读量408

点赞数

文章标签： python 人工智能

本文链接：https://blog.csdn.net/xinsunny/article/details/107271458

版权

一. 梯度下降法，又称最速下降法。是求解无约束最优化问题最常用的方法，它是一种迭代方法，每一步主要的操作是求解目标函数的梯度向量，将当前位置的负梯度方向作为搜索方向（因为在该方向上目标函数下降最快，这也是最速下降法名称的由来）。梯度下降法特点：越接近目标值，步长越小，下降速度越慢。
在这里插入图片描述

【类似于上面这样】
下面这个h(θ)是我们的拟合函数
也可以用向量的形式进行表示

在这里插入图片描述

下面函数是我们需要进行最优化的风险函数，其中的每一项都表示在已有的训练集上我们的拟合函数与y之间的残差，计算其平方损失函数作为我们构建的风险函数（参见最小二乘法及其Python实现）
在这里插入图片描述

这里我们乘上1/2是为了方便后面求偏导数时结果更加简洁，之所以能乘上1/2是因为乘上这个系数后对求解风险函数最优值没有影响。
我们的目标就是要最小化风险函数，使得我们的拟合函数能够最大程度的对目标函数y进行拟合，即：
在这里插入图片描述
二. 梯度下降法分为三类
*批量梯度下降BGD
*优点：
（1）一次迭代是对所有样本进行计算，此时利用矩阵进行操作，实现了并行。
（2）由全数据集确定的方向能够更好地代表样本总体，从而更准确地朝向极值所在的方向。当目标函数为凸函数时，BGD一定能够得到全局最优。
缺点：
（1）当样本数目 m很大时，每迭代一步都需要对所有样本计算，训练过程会很慢。
随机梯度下降SGD
在这里插入图片描述
优点：
（1）由于不是在全部训练数据上的损失函数，而是在每轮迭代中，随机优化某一条训练数据上的损失函数，这样每一轮参数的更新速度大大加快。
缺点：
（1）准确度下降。由于即使在目标函数为强凸函数的情况下，SGD仍旧无法做到线性收敛。
（2）可能会收敛到局部最优，由于单个样本并不能代表全体样本的趋势。
（3）不易于并行实现。
小批量梯度下降
在这里插入图片描述
优点：
（1）通过矩阵运算，每次在一个batch上优化神经网络参数并不会比单个数据慢太多。
（2）每次使用一个batch可以大大减小收敛所需要的迭代次数，同时可以使收敛到的结果更加接近梯度下降的效果。(比如上例中的30W，设置batch_size=100时，需要迭代3000次，远小于SGD的30W次)
（3）可实现并行化。
缺点：
（1）batch_size的不当选择可能会带来一些问题。
**三.**算法
（瞟来的，自己写的话还有些许难度，但要努力哦！！！）

import numpy as np
import matplotlib.pyplot as plt
x=np.linspace(-1,6,141)
y=(x-2.5)**2-1
#每点梯度
def dj(theta):
    return 2*(theta-2.5)
#每点的Y值
def J(theta):
    try:
        return (theta-2.5)**2-1
    #防止J越来越大
    except:
        return float('inf')
#梯度下降，将theta的值记录下来，定义最大迭代次数和允许的最小误差
def gradient_descent(initial_theta,eta,n_iters=1e4,error=1e-8):
    theta=initial_theta
    theta_hist.append(initial_theta)
    i_iter=0
    while i_iter<n_iters:
        gradient=dj(theta)
        last_theta=theta
        theta=theta-eta*gradient
        theta_hist.append(theta)
        if abs(J(theta)-J(last_theta))<error:
            break
        i_iter+=1
#绘制原始曲线和梯度下降过程
def plot_thetahist():
    plt.plot(x,J(x))
    plt.plot(np.array(theta_hist),J(np.array(theta_hist)),color='r',marker='+')
    plt.show()

#学习率,步长
eta=0.1
theta_hist=[]
gradient_descent(0,eta,n_iters=10)
plot_thetahist()

xinsunny

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
欣小白的点滴 ——梯度下降

一. 梯度下降法，又称最速下降法。是求解无约束最优化问题最常用的方法，它是一种迭代方法，每一步主要的操作是求解目标函数的梯度向量，将当前位置的负梯度方向作为搜索方向（因为在该方向上目标函数下降最快，这也是最速下降法名称的由来）。梯度下降法特点：越接近目标值，步长越小，下降速度越慢。【类似于上面这样】下面这个h(θ)是我们的拟合函数也可以用向量的形式进行表示下面函数是我们需要进行最优化的风险函数，其中的每一项都表示在已有的训练集上我们的拟合函数与y之间的残差，计算其平方损失函数作为我们构建的风
复制链接

扫一扫