多元回归

1.与简单线性回归区别(simple linear regression)

   多个自变量(X)

2.多元回归模型

   y = B0 + B1x1+B2x2+...+Bpxp + e

    e是误差值

3.多元回归方程

   期望值中e的期望值为0,因此得到多元回归方程如下

   E(y) = B0 + B1x1+B2x2+...+Bpxp

4.估计多元回归方程

   y_hat = b0 + b1x1 + b2x2+...+bpxp

   一个样本被用来计算B0,B1,B2...Bp的点估计b0,b1,b2,...,bp

5.估计流程(与简单线性回归方程类似)

  

6.估计方法

  使sum of squares最小

  

 运算与简单线性回归类似,涉及到线性代数和矩阵代数的运算

7.例子

  一家快递公司送货:

 运输里程:x1

 运输次数:x2

 运输时间:y

 

运输里程

运输次数

运输时间

100

4

9.3

50

3

4.8

100

4

8.9

100

2

6.5

50

2

4.2

80

2

6.2

75

3

7.4

65

4

6.0

y = b0 + b1*x1 + b2*x2

计算后得出方程如下:

y = -0.869 + 0.0611*x1 + 0.923*x2

 

8.参数含义

 b0 平均每多运送一英里,运输时间延长0.0611小时

 b1 平均每多一次运输,运输时间延长0.923小时

 

9.预测

  如果一个运输任务是跑102英里,运输6次,预计多少小时?

  time = -0.869 + 0.0611 * 102 + 0.923*6 = 10.9(小时)

 

10.如果自变量中有分类型变量(categorical data),如何处理?

英里数

次数

车型

时间

100

4

1

9.3

50

3

0

4.8

100

4

1

8.9

100

2

2

6.5

50

2

2

4.2

80

2

1

6.2

75

3

1

7.4

65

4

0

6

90

3

0

7.6

 针对分类型变更需要先将分类型变量转化成数值型,有几种分类就追加几列,对应列值设置为1,其余设置为0,转化规则如下:

英里数

次数

车型

0

1

2

时间

100

4

1

0

1

0

9.3

50

3

0

1

0

0

4.8

100

4

1

0

1

0

8.9

100

2

2

0

0

1

6.5

50

2

2

0

0

1

4.2

80

2

1

0

1

0

6.2

75

3

1

0

1

0

7.4

65

4

0

1

0

0

6

90

3

0

1

0

0

7.6

11.关于误差的分布

误差e是一个随机变量,均值为0,e的方差对于所有自变量来说相等,所有e的值是独立的,

e满足正态分布,并且通过B0+B1*X1+B2*X2+...+Bp*Xp反映y的期望值

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值