机器学习|什么是梯度下降（小白向）|探寻最优解之路

.别止步春天.

于 2024-08-15 17:21:12 发布

阅读量1k

点赞数 19

分类专栏：人工智能文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/weixin_73373302/article/details/141222976

版权

人工智能专栏收录该内容

9 篇文章 1 订阅

订阅专栏

文章目录

前言
一、什么是梯度下降？
二、梯度下降法一般步骤
三、梯度下降的分类
三、总结
四、后话

前言

我们身处人工智能的时代，各种算法层出不穷，令我们眼花缭乱，望而却步，那么有没有一种核心的，最基础的算法，能够作为一把钥匙帮助我们打开机器学习领域的大门呢，那就是“梯度下降法”啦，那么，什么是梯度？为什么要下降？怎么下降呢？

一、什么是梯度下降？

想象一下，你在一座大山的山顶上，你的目标是找到下山最快的路径。梯度下降算法的工作方式与此类似，只不过是在数学空间中寻找函数最小值的过程。它是一种迭代优化算法，用于最小化或最大化一个函数（在机器学习中通常是损失函数），通过沿着函数梯度的反方向移动来逐步调整参数。
OK记住这个下山的例子，我们要开始分析啦！

二、梯度下降法一般步骤

1.确定一个小目标——预测函数

机器学习的一个常见任务是：通过学习算法发现一堆数据背后的规律，然后不断改进模型，使得这个模型能够很好地做出预测。

通俗示例：
数据如下：已知房价由房子的面积，朝向，距离市中心地距离这三个因变量决定。现在有500条数据，每条数据包含一个房子的面积，朝向，距离市中心和房价。例如：房子1：面积120平，朝向正南，距离市中心3000米，房价：200万。
你需要做的：是找到一个目标函数很好的拟合这些数据，以便于我给你一条新的数据，它包括三个因变量，然后带入你的函数，预测出房价。
OK这就是一个常见任务。

现有一个坐标系：横坐标x:面积，纵坐标y:房价。有一堆样本点，你需要找到一个函数拟合这些点，是y=wx还是y=wx²？直觉告诉你这是一条直线，那么好，现在我们从一元一次函数开始吧！这个问题中目标函数或者说预测函数就是：y=wx。

在这里插入图片描述

2.找到差距——代价函数

问题来了，怎么判断拟合的程度好不好呢？我们可以用样本点偏离目标函数的程度表示，偏离越大，拟合越不好，反之越好。
最常用的方法是均方误差，顾名思义：就是误差平方和的平均值。
我们现在算一下平方误差，现有一个点p1（x1,y1），要算这个点的误差e1，那么如下图：

这个误差函数也被称为代价函数（cost function），为了偏离更小，也就是拟合程度更好，我们当然希望找到一个w，使得e最小，也就是求最小值点
在这里插入图片描述

这样，我们成功将样本点的拟合过程映射到了一个函数图像上：
在这里插入图片描述

3.明确搜索方向——梯度计算

梯度（gradient）就是导数，在二次函数中也就是斜率。
我们随便选择一个初始点，直觉告诉我们，往下降的方向走准没错！
在这里插入图片描述

4.一步要走多远？——学习率

往下降的方向走，方向对了，但是步子迈多大？
给出一个式子：
新w=旧w - 斜率*学习率
步子迈太大——学习率太高，例如=0.2，可能会出现以下效果
在这里插入图片描述

恰当的学习率（例如0.01）是受推崇的，效果也不错，很快找到了最低点

在这里插入图片描述

三、梯度下降的分类

梯度下降有几种变体，主要区别在于计算梯度时使用数据的不同方式：

批量梯度下降：使用所有训练数据计算梯度，是最准确但最慢的方法。
随机梯度下降（SGD）：每次只使用一个训练样本来更新参数，速度快但波动较大。
小批量梯度下降：折中方案，每次使用一小批样本计算梯度，既保证了速度又减少了波动。

下面是文字解释：
在机器学习中，梯度下降算法是调整模型参数以最小化损失函数的重要方法。根据如何选择数据来计算梯度，梯度下降有三种主要形式：批量梯度下降（Batch Gradient Descent）、随机梯度下降（Stochastic Gradient Descent，简称SGD）以及小批量梯度下降（Mini-batch Gradient Descent）。下面，我们将逐一探讨这三种方法的特点和适用场景。