1 利用散点图体现数据模式
相关:数据点如果几乎呈直线分布,则认为两个变量线性相关。
两个变量存在相关关系意味着二者之间存在着某种数学关系, 并不意味着一个变量会影响另一个变量, 也不意味着二者存在实际关系。
2 用最佳拟合线预测数值
线性回归法(最小二乘回归法)是一种求最佳拟合线y = a+bx的数学方法。
最佳拟合线:这条线使得所有的y的观察值和期望值之间的距离和Σ(yi -
y
i
^
\hat{yi}
yi^) 最小。为避免实际距离相互抵消, 用 ‘误差平方和SSE’ 替换 ‘距离和’ 。
误差平方和: SSE=Σ(yi -
y
i
^
\hat{yi}
yi^)2
斜率b计算公式:b=Σ(x-
x
‾
\overline{x}
x)(y-
y
‾
\overline{y}
y)/Σ(x-
x
‾
\overline{x}
x)2
截距a的计算公式:a =
y
‾
\overline{y}
y-b
x
‾
\overline{x}
x
3 计算直线拟合度–相关系数r
- r=1表示完全正相关,
- r=-1表示完全负相关,
- r=0则不存在相关性。
- 越接近1或-1,相关性越强。
计算公式: r = b*Sx/Sy
Sx表示样本中x的标准差, Sy表示y的标准差。
注意:最佳拟合线能给出样本数据范围内的估计,但数据范围以外的估计不具有参考性。