1.与简单线性回归区别(simple linear regression)
多个自变量(X)
2.多元回归模型
y = B0 + B1x1+B2x2+...+Bpxp + e
e是误差值
3.多元回归方程
期望值中e的期望值为0,因此得到多元回归方程如下
E(y) = B0 + B1x1+B2x2+...+Bpxp
4.估计多元回归方程
y_hat = b0 + b1x1 + b2x2+...+bpxp
一个样本被用来计算B0,B1,B2...Bp的点估计b0,b1,b2,...,bp
5.估计流程(与简单线性回归方程类似)
6.估计方法
使sum of squares最小
运算与简单线性回归类似,涉及到线性代数和矩阵代数的运算
7.例子
一家快递公司送货:
运输里程:x1
运输次数:x2
运输时间:y
运输里程 | 运输次数 | 运输时间 |
100 | 4 | 9.3 |
50 | 3 | 4.8 |
100 | 4 | 8.9 |
100 | 2 | 6.5 |
50 | 2 | 4.2 |
80 | 2 | 6.2 |
75 | 3 | 7.4 |
65 | 4 | 6.0 |
y = b0 + b1*x1 + b2*x2
计算后得出方程如下:
y = -0.869 + 0.0611*x1 + 0.923*x2
8.参数含义
b0 平均每多运送一英里,运输时间延长0.0611小时
b1 平均每多一次运输,运输时间延长0.923小时
9.预测
如果一个运输任务是跑102英里,运输6次,预计多少小时?
time = -0.869 + 0.0611 * 102 + 0.923*6 = 10.9(小时)
10.如果自变量中有分类型变量(categorical data),如何处理?
英里数 | 次数 | 车型 | 时间 |
100 | 4 | 1 | 9.3 |
50 | 3 | 0 | 4.8 |
100 | 4 | 1 | 8.9 |
100 | 2 | 2 | 6.5 |
50 | 2 | 2 | 4.2 |
80 | 2 | 1 | 6.2 |
75 | 3 | 1 | 7.4 |
65 | 4 | 0 | 6 |
90 | 3 | 0 | 7.6 |
针对分类型变更需要先将分类型变量转化成数值型,有几种分类就追加几列,对应列值设置为1,其余设置为0,转化规则如下:
英里数 | 次数 | 车型 | 0 | 1 | 2 | 时间 |
100 | 4 | 1 | 0 | 1 | 0 | 9.3 |
50 | 3 | 0 | 1 | 0 | 0 | 4.8 |
100 | 4 | 1 | 0 | 1 | 0 | 8.9 |
100 | 2 | 2 | 0 | 0 | 1 | 6.5 |
50 | 2 | 2 | 0 | 0 | 1 | 4.2 |
80 | 2 | 1 | 0 | 1 | 0 | 6.2 |
75 | 3 | 1 | 0 | 1 | 0 | 7.4 |
65 | 4 | 0 | 1 | 0 | 0 | 6 |
90 | 3 | 0 | 1 | 0 | 0 | 7.6 |
11.关于误差的分布
误差e是一个随机变量,均值为0,e的方差对于所有自变量来说相等,所有e的值是独立的,
e满足正态分布,并且通过B0+B1*X1+B2*X2+...+Bp*Xp反映y的期望值