机器学习数学基础(1)-回归、梯度下降

最新推荐文章于 2024-06-15 12:24:48 发布

xuzhongxiong

最新推荐文章于 2024-06-15 12:24:48 发布

阅读量3.6k

点赞数 1

分类专栏：深度学习机器学习文章标签：机器学习深度学习数学

本文链接：https://blog.csdn.net/xuzhongxiong/article/details/53234239

版权

机器学习同时被 2 个专栏收录

7 篇文章 0 订阅

订阅专栏

深度学习

5 篇文章 0 订阅

订阅专栏

1. 前言

本系列文章将总结一些机器学习中应用到的数学基础，想要学好机器学习，首先得去理解其中的数学意义，不一定要到能够轻松自如的推导中间的公式，不过至少要认识这些公式，不然一些相关的论文就看不懂，这个系列的文章将着重于机器学习的数学描述这个部分。

2.回归

回归在数学上就是通过一个点集，用一条曲线去拟合这些点，如果这条曲线是直线，就称为线性拟合，如果曲线是一条二次曲线则称为二次回归。
用一个简单的例子来说明回归。一套房子的价值取决于面积、房间的数量、地段、朝向等，这些影响房子价格的因素称为特征，特征在机器学习中是一个很重要的概念，有很多论文专门探讨这个东西。在这，为了简单，假设我们的房子价格只受到面积这一因素的影响。
假设有一份房屋销售的数据如下：

面积（m² ）	销售价格（万元）
123	250
150	320
87	160
102	220
……	……

以x轴是房屋的面积，y轴是房屋的售价，可以绘制绘制散点图如下：
这里写图片描述

如果来了一个新的面积房子，假设在销售价格价钱的记录中没有，那应该怎么估计该房子的售价？
我们可以用一条曲线去尽量拟合这些数据，如果有新的输入过来，我们可以将曲线上这个点对应的值返回。如果用一条直线去拟合，可能是下面这样子：

绿色的点就是我们想要的预测点。
为了描述机器学习，首先给出一些概念和常用的符号，在不同的机器学习书籍中可能有一定的区别。
（1）房屋销售记录表-训练数据集或者训练数据，是机器学习中的输入数据，一般记为x；
（2）房屋售价-输出数据，记为y:
（3）拟合函数（或者称为假设或者模型），记为y=h(x)；
（4）训练数据的数量，一条训练数据是由一对输入数据和输出数据组成的，输入数据的维度（特征的个数），记为n.
下面是一个典型的机器学习过程，首先给出一个输入数据，我们的算法通过一系列的过程得到一个估计的函数，这个函数有能力对没有见过的新数据给出一个新的估计，也称为构建模型。就如同上面的线性回归函数。

我们将用X1,X2……Xn去描述特征里面的分量，比如x1=房间的面积，x2=房间的朝向，等等，我们可以做出一个估计函数：

θ在这儿称为参数，在这儿的意思是调整特征向量中每个分量的影响力，就是到底是房屋的面积更重要还是房屋的地段更重要。为此，如果我们令X0 = 1，就可以用向量的方式来表示了：

我们程序也需要一个机制去评估我们θ是否比较好，所以需要对我们做出的h函数进行评估，一般这个函数称为损失函数（loss function）或者错误函数(error function)，描述h函数不好的程度，在下面，我们称这个函数为J函数。
在这儿我们可以做出下面的一个损失函数：

这个损失函数是去对x(i)的估计值与真实值y(i)差的平方和作为错误估计函数，前面乘上的1/2是为了在求导的时候，这个系数就不见了。
如何调整θ以使得J(θ)取得最小值有很多方法，其中有最小二乘法，是一种完全是数学描述的方法，在stanford机器学习开放课最后的部分会推导最小二乘法的公式的来源，这个在很多的机器学习和数学书上都可以找到，这里就不提最小二乘法，而谈谈梯度下降法。

3.梯度下降

首先描述一下梯度下降的流程：
（1）首先对θ赋值，这个值可以是随机的，也可以让θ是一个全零的向量；
（2）改变θ的值，使得J(θ)按梯度下降的方向进行减少，直到得到全局最小值。
为了更清楚，给出下面的图：

这是一个表示参数θ与损失函数J(θ)的关系图，红色的部分是表示J(θ)有着比较高的取值，我们需要的是，能够让J(θ)的值尽量的低。也就是深蓝色的部分。θ0，θ1表示θ向量的两个维度。
在上面提到梯度下降法的第一步是给θ给一个初值，假设随机给的初值是在图上的红色十字点。
然后我们将θ按照梯度下降的方向进行调整，就会使得J(θ)往更低的方向进行变化，如图所示，算法的结束将是在θ下降到无法继续下降为止。

当然，可能梯度下降的最终点并非是全局最小点，可能是一个局部最小点，可能是下面的情况：

上面这张图就是描述的一个局部最小点，这是我们重新选择了一个初始点得到的，看来梯度下降将会在很大的程度上被初始点的选择影响而陷入局部最小点。
下面我将用一个例子描述一下梯度减少的过程，对于我们的函数J(θ)求偏导J（偏导的意义就是描述每个维度（特征）方向的变化对损失函数值的影响程度）：

下面是更新的过程，也就是θi会向着梯度最小的方向进行减少。θi表示更新之前的值，-后面的部分表示按梯度方向减少的量，α表示步长，也就是每次按照梯度减少的方向变化多少。

一个很重要的地方值得注意的是，梯度是有方向的，对于一个向量θ，每一维分量θi都可以求出一个梯度的方向，我们就可以找到一个整体的方向，在变化的时候，我们就朝着下降最多的方向进行变化就可以达到一个最小点，不管它是局部的还是全局的。
用更简单的数学语言进行描述步骤2）是这样的：