1.1 什么是简单线性回归
KNN算法属于分类(Classification),即label为离散的类别(categorical variable) 如:颜色类别,手机品牌
而简单线性回归是否属于回归(regression) ,即label为连续数值型(continuous numerical varibale) 如房价,股票,降雨量
什么是简单线性回归?
所谓简单,是指有一个样本特征,即只有一个自变量:所谓线性,是指方程是线性的;所谓回归,是指用方程来模拟变量之间是如何关联的。
简单线性回归:思想简单(与其背后强大的数学性质相关,同时也是许多强大的非线性模型,(多项式回归、逻辑回归 SVM))的基础。并且结果具有良好的解释性。
1.2思路
示例1
玩具产量和成本的关系,如下表格
玩具个数 | 成本 |
---|---|
10 | 7.7 |
10 | 9.87 |
11 | 10.87 |
12 | 12.18 |
13 | 11.43 |
14 | 13.36 |
15 | 15.15 |
16 | 16.73 |
17 | 17.4 |
可视化:
图像中我们发现,产量和成本之间,存在者一定线性关系,似乎沿着某条直线上下随机波动
也就是说,我们需要一条直线,最大程度的拟合样本特征和样本数据标记之间的关系。在二维平面中,这条直线就是y = ax+b。
假设我们找到了最佳拟合的直线方程:y = ax + b
则对于每个样本点 x i x^i xi ,根据我们的直线方程,预测值为: y ^ \hat{y} y^= a x i ax^i axi +b
很显然,我们希望直线方程能够尽可能地拟合真实情况,也就是说真值 y i y^i yi 和预测值 y ^ i \hat{y} ^i y^i 的差距尽量小。只有所有的样本的误差都小,才能证明我们找出的直线方程拟合性好。
通常来说,为了防止正误差值和负误差值相抵的情况,使用绝对值来表示距离:| y i y^i yi- y ^ i \hat{y}^i y^i|,但是在线性回归中,我们需要找极值,需要函数可导,而y = |x| 不是一个处处可导的函数,因此很自然地想到可以使用:( y i y^i yi - y ^ i \hat{y}^i y^i)2
考虑所有样本,我们推导出:
∑ i = 1 n \sum_{i=1}^{n} ∑i=1n( y i y^i yi - y ^ i \hat{y}^i y^i)2
因此我们目标是:已知训练数据样本x、y ,找到a和b的值,使 ∑ i = 1 m \sum_{i=1}^{m} ∑i=1m( y i y^i yi - a x i − b ax^i-b axi−b)2 尽可能小,从而得出最佳的拟合方程。
示例2:
汽车卖家做电视广告和卖出汽车的数量;
如何练出适合简单线性回归的模型的最佳回归线?
使sum of squares最小
计算:
分子 = (1-2)(14-20)+(3-2)(24-20)+(2-2)(18-20)+(1-2)(17-20)+(3-2)(27-20)
= 6 + 4 + 0 + 3 + 7
= 20
分母 = (1-2)^2 + (3-2)^2 + (2-2)^2 + (1-2)^2 + (3-2)^2
= 1 + 1 + 0 + 1 + 1
4
b1 = 20/4 =5
b0 = 20 - 5*2 = 20 - 10 = 10
假设一周有广告数量为6,预测汽车销量多少