线性回归算法

1.1 什么是简单线性回归
KNN算法属于分类(Classification),即label为离散的类别(categorical variable) 如:颜色类别,手机品牌
而简单线性回归是否属于回归(regression) ,即label为连续数值型(continuous numerical varibale) 如房价,股票,降雨量
什么是简单线性回归?
所谓简单,是指有一个样本特征,即只有一个自变量:所谓线性,是指方程是线性的;所谓回归,是指用方程来模拟变量之间是如何关联的。
简单线性回归:思想简单(与其背后强大的数学性质相关,同时也是许多强大的非线性模型,(多项式回归、逻辑回归 SVM))的基础。并且结果具有良好的解释性。

1.2思路
示例1
玩具产量和成本的关系,如下表格

玩具个数 成本
10 7.7
10 9.87
11 10.87
12 12.18
13 11.43
14 13.36
15 15.15
16 16.73
17 17.4

可视化:
在这里插入图片描述
图像中我们发现,产量和成本之间,存在者一定线性关系,似乎沿着某条直线上下随机波动
在这里插入图片描述
也就是说,我们需要一条直线,最大程度的拟合样本特征和样本数据标记之间的关系。在二维平面中,这条直线就是y = ax+b。
假设我们找到了最佳拟合的直线方程:y = ax + b

则对于每个样本点 x i x^i xi ,根据我们的直线方程,预测值为: y ^ \hat{y} y^= a x i ax^i axi +b
很显然,我们希望直线方程能够尽可能地拟合真实情况,也就是说真值 y i y^i yi 和预测值 y ^ i \hat{y} ^i y^i 的差距尽量小。只有所有的样本的误差都小,才能证明我们找出的直线方程拟合性好。
通常来说,为了防止正误差值和负误差值相抵的情况,使用绝对值来表示距离:| y i y^i yi- y ^ i \hat{y}^i y^i|,但是在线性回归中,我们需要找极值,需要函数可导,而y = |x| 不是一个处处可导的函数,因此很自然地想到可以使用:( y i y^i yi - y ^ i \hat{y}^i y^i)2
考虑所有样本,我们推导出:
∑ i = 1 n \sum_{i=1}^{n} i=1n( y i y^i yi - y ^ i \hat{y}^i y^i)2
因此我们目标是:已知训练数据样本x、y ,找到a和b的值,使 ∑ i = 1 m \sum_{i=1}^{m} i=1m( y i y^i yi - a x i − b ax^i-b axib)2 尽可能小,从而得出最佳的拟合方程。
在这里插入图片描述
示例2:
汽车卖家做电视广告和卖出汽车的数量;
在这里插入图片描述
如何练出适合简单线性回归的模型的最佳回归线?
在这里插入图片描述
在这里插入图片描述
使sum of squares最小

计算:
在这里插入图片描述
分子 = (1-2)(14-20)+(3-2)(24-20)+(2-2)(18-20)+(1-2)(17-20)+(3-2)(27-20)
= 6 + 4 + 0 + 3 + 7
= 20

分母 = (1-2)^2 + (3-2)^2 + (2-2)^2 + (1-2)^2 + (3-2)^2
= 1 + 1 + 0 + 1 + 1
4

b1 = 20/4 =5

在这里插入图片描述
b0 = 20 - 5*2 = 20 - 10 = 10
在这里插入图片描述
假设一周有广告数量为6,预测汽车销量多少

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值