机器学习（一）单、多变量线性回归与多项式回归

ykjs_

于 2020-10-28 22:48:46 发布

阅读量966

点赞数 2

文章标签：机器学习算法

本文链接：https://blog.csdn.net/ykjs_/article/details/109323007

版权

机器学习初步
机器学习，作为实现人工智能的一种方法，专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。

简单的说，机器学习就是让计算机能根据已有的数据和经验，来优化自身的程序性能的研究方向。

打个比方，你在市场上买了一批芒果（训练数据），并记录下了它们的大小、颜色、产地、品种、采摘时间等相关信息（特征），然后开始品尝这些芒果的甜度（训练数据的输出变量），你或许会从这个过程中习得一些经验，并以此做出预测：在这家店买的颜色更黄，才摘下来不久的芒果（测试数据）会更好吃（测试数据的输出变量）。虽然这个预测不一定能做到100%的正确，但我们总能凭借着经验做出准确率十分高的预测，这也是我们希望计算机能够做到的一点。我们将训练数据提交给计算机，根据我们设计的模型，希望它能够找到一种特征与输出变量的映射关系（要求较好的拟合，同时避免过拟合的情况出现），就能让我们日后使用这个映射关系，根据输入的特征，预测一个输出变量。如果这个输出变量的预测与实际情况较其他模型而言相近（需要自行引入评价的指标，例如方差），我们就可以认为这是一个比较好的模型。

像上述这种通过我们给定的训练数据来给计算机“学习”，并进行预测的方法叫做监督学习，还有一种只是给计算机一个数据集，让它自行对这些数据的特征进行分类的方式被称为无监督学习，相较于监督学习，无监督学习更为贴近人类学习的方式，毕竟你永远不会为了教会一个孩子分辨老虎和狮子而给他看上成千上万张图片，而是让他自己发现两种动物的异同。除此以外，还有根据对外界环境反馈进行自我调整的机器学习方式被称作深度学习，例如平日里B站、淘宝上的推荐，就是根据你平常点击的习惯不断调整给你的推荐。

以上的是机器学习根据学习方法的不同的三种分类，当然还有一些比较模糊的分类（例如半监督学习）和其他的分类方式，在此不过多赘述。

接下来我们来讲讲机器学习的最简单的模型———线性回归模型

线性回归模型：单变量
在这里插入图片描述
如上图，我们已知该地房价与房屋面积的一组数据，我们希望能构建一个函数让我们根据房屋的面积预测房屋价格。很简单地，我们希望这会是一个线性的模型，于是我们假设该地的房价与房屋面积有如下的关系（ $h_\theta(x)$ 代表房价，x代表房屋面积）：

$h_\theta(x)=\theta_0+\theta_1x$

那我们接下来的目标就是寻找这个函数关系中的 $\theta_0$ 和 $\theta_1$ ，使得我们做出的这条直线能够尽可能好地符合这组提供的数据，因此我们需要引入代价函数这个评价指标。

评价指标的选取可以多样化，你可以选取所有点到这条直线的距离之和，也可以选对于同一个面积，预测的房价减去实际的房价的差值的求和，但为了便于计算，我们选取如下的评价指标：

$J(\theta_0,\theta_1)=\frac{1}{2m}\sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})^2$
上式中的m代表训练集中有m组对应的数据， $x^{(i)}$ 代表训练集中第 $i$ 个输入变量的取值， $y^{(i)}$ 代表训练集中第 $i$ 个输出变量的取值，所以上式可以看作是平面上所有的点到给定直线的距离平方之和再乘上一个系数。为了让拟合的效果更好，我们想让 $J(\theta_0,\theta_1)$ 尽可能小，所以现在的问题就在于如何将 $J(\theta_0,\theta_1)$ 最小化。

面对数据量较小的数据集（小于10000条数据）时，采用暴力算法往往比较快，即对 $J(\theta_0,\theta_1)$ 求偏导
$\frac{\partial J(\theta_0,\theta_1)}{\partial \theta_0}=\frac{1}{m}\sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})$

最低0.47元/天解锁文章

ykjs_

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
机器学习（一）单、多变量线性回归与多项式回归

机器学习初步机器学习，作为实现人工智能的一种方法，专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。简单的说，机器学习就是让计算机能根据已有的数据和经验，来优化自身的程序性能的研究方向。打个比方，你在市场上买了一批芒果（训练数据），并记录下了它们的大小、颜色、产地、品种、采摘时间等相关信息（特征），然后开始品尝这些芒果的甜度（训练数据的输出变量），你或许会从这个过程中习得一些经验，并以此做出预测：在这家店买的颜色更黄，才摘下来不久的芒果（测
复制链接

扫一扫