“ 机器学习是数据驱动算法,数据驱动=数据+算法,模型就是输入与输出之间的映射关系。线性回归是是机器学习中比较基础也很常用的模型,主要用来解决连续值预测的问题”
01
—
线性回归通俗解释
举个比较通俗的例子:最近很多平台都被爆出大数据杀熟的情况,我们把这种情况简单的抽象下,假设我们在某平台购买一部手机,他给我推送的价格是根据我的年龄和每月的消费情况来决定的,当然,实际情况肯定不会只有这有两类数据,毕竟很多平台都对注册用户都构建了一个非常精细的用户画像:
现在我们进行一个数学抽象:
1、数据特征:年龄、消费情况
2、预测目标:手机的价格
3、特征参数:平台会给年龄和消费情况这两个参数分配一个什么比重呢
数学表达:
假设年龄是X1,消费情况X2,Y就是手机的价格,那现在平台就需要找到一个拟合平面来拟合尽可能多的数据
假设 是年龄的参数, 是消费情况的参数,那么如上图中的拟合平面可表达如下:
( 是偏置项),如果参数不止x1,x2,那么可以整合成通用表达式:
显然真实值和预测值之间肯定会存在差异(用 来表示误差),所以对于每个用户也就是每个样本都有一个拟合表达式 (1):
再解释下什么是误差:
1、误差 是独立并且具有相同的分布,并且服从均值为0方差为 的高斯分布(2):
2、独立性:假如你和另外一个人一起买手机,你俩没啥关系
3、同分布:假设你俩都用同一个APP来买手机
4、高斯分布:APP会根据不同的人给出不同的价格,但是大多数情况下这个浮动不会太大,极小情况下浮动会比较大,符合正常情况。
下面将根据公式&#x