回归分析
回归分析:确定两种或多种变量间相互依赖定量关系的一种统计分析方法。按自变量和因变量之间的关系类型,可分为:线性回归、非线性回归
线性回归:
线性回归是首选的预测模型
(1)因变量是连续的,自变量可以是连续或是离散的,线性回归线的性质是线性的。
(2)线性回归使用最佳的拟合直线(回归线)在因变量Y和一个或多个自变量X之间建立一种关系。
简单的线性回归(一元线性回归):
Y
=
a
+
b
x
Y = a+bx
Y=a+bx
多元线性回归 (多元线性回归可以根据给定的预测变量S来预测目标的变量) :
Y
=
a
+
b
1
x
1
+
b
2
x
2
+
.
.
.
+
b
n
x
n
Y = a+b_1x_1+b_2x_2+...+b_nx_n
Y=a+b1x1+b2x2+...+bnxn
实例:
一房源样本数据:房源编号、建筑面积、物业费、总价。
- 线性回归的目的:通过现有的样本数据,找到“总价”与“建筑面积”、“物业费”的线性关系,以达到可以在给定“建筑面积”和“物业费”的情况下预测“总价”。
- 数据属性:建筑面积和物业费为特征
- 样本数据:以房源编号为index的十条数据
- 结论:关系=>
总价 = 影响因子1 * 建筑面积 + 影响因子2 * 物业费 + 回归系数
所以需要找一条合适的线用来拟合数据。
即:
h
θ
(
x
)
=
θ
0
+
θ
1
x
1
+
θ
2
x
2
h_θ(x) = θ_0+θ_1x_1+θ_2x_2
hθ(x)=θ0+θ1x1+θ2x2