线性回归算法

最新推荐文章于 2024-05-09 22:21:22 发布

李佳星

最新推荐文章于 2024-05-09 22:21:22 发布

阅读量1.5k

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_43975220/article/details/103446183

版权

1.1 什么是简单线性回归
KNN算法属于分类(Classification),即label为离散的类别（categorical variable）如：颜色类别，手机品牌
而简单线性回归是否属于回归（regression），即label为连续数值型（continuous numerical varibale）如房价，股票，降雨量
什么是简单线性回归？
所谓简单，是指有一个样本特征，即只有一个自变量：所谓线性，是指方程是线性的；所谓回归，是指用方程来模拟变量之间是如何关联的。
简单线性回归：思想简单（与其背后强大的数学性质相关，同时也是许多强大的非线性模型，（多项式回归、逻辑回归 SVM））的基础。并且结果具有良好的解释性。

1.2思路
示例1
玩具产量和成本的关系，如下表格

玩具个数	成本
10	7.7
10	9.87
11	10.87
12	12.18
13	11.43
14	13.36
15	15.15
16	16.73
17	17.4

可视化：
在这里插入图片描述
图像中我们发现，产量和成本之间，存在者一定线性关系，似乎沿着某条直线上下随机波动

也就是说，我们需要一条直线，最大程度的拟合样本特征和样本数据标记之间的关系。在二维平面中，这条直线就是y = ax+b。
假设我们找到了最佳拟合的直线方程：y = ax + b

则对于每个样本点 $x^i$ ，根据我们的直线方程，预测值为： $\hat{y}$ = $ax^i$ +b
很显然，我们希望直线方程能够尽可能地拟合真实情况，也就是说真值 $y^i$ 和预测值 $\hat{y} ^i$ 的差距尽量小。只有所有的样本的误差都小，才能证明我们找出的直线方程拟合性好。
通常来说，为了防止正误差值和负误差值相抵的情况，使用绝对值来表示距离：| $y^i$ - $\hat{y}^i$ |，但是在线性回归中，我们需要找极值，需要函数可导，而y = |x| 不是一个处处可导的函数，因此很自然地想到可以使用：( $y^i$ - $\hat{y}^i$ )2
考虑所有样本，我们推导出：
$\sum_{i=1}^{n}$ ( $y^i$ - $\hat{y}^i$ )2
因此我们目标是：已知训练数据样本x、y ，找到a和b的值，使 $\sum_{i=1}^{m}$ ( $y^i$ - $ax^i-b$ )2 尽可能小，从而得出最佳的拟合方程。
在这里插入图片描述
示例2：
汽车卖家做电视广告和卖出汽车的数量；

如何练出适合简单线性回归的模型的最佳回归线？

使sum of squares最小