模块一week1第一个机器学习模型--线性回归模型

今天你吃了吗a

已于 2023-01-14 20:12:35 修改

阅读量846

点赞数

分类专栏：机器学习文章标签：线性回归人工智能

于 2022-12-17 11:12:59 首次发布

本文链接：https://blog.csdn.net/zhayuu/article/details/128351641

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

1 机器学习定义

使计算机无需明确编程即可学习的研究领域。亚瑟塞缪尔（1959）

2 主要类型

监督学习（使用最多的机器学习类型）、无监督学习、强化学习

2.1 监督学习

1、定义：监督学习是指学习从输入x到输出y的映射的算法。

2、理解：是你给模型学习的数据中包括了正确的答案，即对于给定的输入x，有正确的输出y，模型通过学习正确的（x，y），对于其他没有给定输出结果的输入（它以前从未见过的）给出合理的预测。

3、类型：

回归：从无限多个可能的数字中预测一个数字。

分类：从有限的可能的输出类别中预测一个类别（不一定是数字）。

2.2 无监督学习

1、定义：是指在没有标签的数据中，找到某种结构或模式的算法。

2、理解：是你给模型学习的数据中不带有任何标签（即只给输入x，不给输出y），我们的算法是找到数据中的一些结构、模式，或者只是找到一些有趣的东西，而不是试图监督算法对于每个输入给出正确的答案。

3、类型：
        聚类算法：获取没有标签的数据，并尝试将他们自动分到不同的簇中（eg:谷歌新闻分类）
        异常检测：检测异常事件。
        降维：压缩一个大的数据集，丢失尽可能少的信息。

3 监督学习模型--回归模型

3.1 线性回归模型

1、定义：线性回归意味着将一条直线拟合到你的数据中。是一种特殊的监督学习模型，

$f_{w,b}(x) = wx + b$

2、举例：房屋价格预测

这是监督学习的一个实例，因为我们是首先给出具有正确答案的数据，然后去预测新房屋的价格。这是回归模型的一个实例，因为它以价格（具有无限种可能的输出）作为预测输出。

还有一种常见的监督学习模型--分类模型：：预测类别或离散类别

一些常见的机器学习专业术语
        训练集：用于训练模型的数据集
        输入变量/ 特征/ 输入特征：给定的作为模型输入的变量，用 x 表示。
        输出变量/ 目标变量：作为模型预测输出的变量，用 y 表示。
        训练样本总数：用 m 表示。
        单个训练样例：用 (x,y) 表示。
        第i个训练样例：用 ( $x^i$ , $y^i$ ) 表示。

3.2 监督学习过程

而设计学习算法时，关键在于如何表示函数 f ？

这种特殊的模型有个名字：线性回归（一元/单变量线性回归：输入只是单个特征x）

3.3 代价函数

1、为了实现回归算法，第一步就是定义代价函数。它是评价模型的一个指标，有助于去优化模型。

2、对于线性回归模型： $f_{w,b}(x) = wx + b$ ，w 与 b 被称为模型的参数，是你在训练过程中可以调整的变量以改进模型，又被称为系数或权重。

3、我们在视觉上觉得下图这条线适合数据时，意味着这条线大致经过或接近所有训练样例。
对于给定的 x(i)，图像上的十字所对应的y轴坐标为 y(i)，即真实值；直线上对应的y轴坐标为 y(i)^，即估计值，我们现在要做的事情就是找到 w 和 b ，以便对于所有样例，估计值都能接近真实值，这就是代价函数的作用。

4、均方误差代价函数

即所有样例的估计值减去真实值的平方再求平均。
2是为了后面求导的过程中会把2约掉，使公式看起来更简洁，但无论除不除以2，都不会产生任何影响

5、使用代价函数来找使得Jmin的w和b

理解：为了简化计算，将参数 b 设为 0。左侧图像是固定参数 w，绘制 x-y 图像，右侧图像是绘制 w-J 图像，因此左侧一条直线对应于右侧一个点。因此如何选择参数 w 的值决定了直线拟合图像拟合的有多好。J 是衡量平方误差有多大的代价函数，所以选择最小化平方误差的 w（此图为w=1时Jmin），会给我们一个很好的模型。因此，线性回归的目标是选择合适的参数以最小化代价函数。

理解：带上w和b。左上是函数 f 的二维图像；右上是函数 J 的等高线图；下面是函数 J 的3D表面图。等高线图上的每个椭圆对应的是3D表面图上处于完全相同高度的点，也就是具有相同的J的点。4要获得等高线图，首先获取3D表面图，然后将其水平切片，每个切片上的所有点对应于一个椭圆。这些同心椭圆的圆心对应代价函数最小的点，直线拟合的越好。