在统计学中,皮尔逊积矩相关系数用于度量两个变量 X 和 Y 之间的相关程度(线性相关),其值介于 - 1 与 1 之间。在自然科学领域中,该系数广泛用于度量两个变量之间的线性相关程度。
一、相关基本数学概念
总体和样本
- 总体:所要考察对象的全部个体叫做总体
- 样本:从总体中所抽取的一部分个体叫做总体的一个样本
- 可使用样本均值、 样本标准差来估计总体的均值(平均水平)和总体的标准差(偏离程度)
二、皮尔逊相关系数
1、总体均值与总体协方差
- 协方差用于度量各个维度偏离其均值的程度。
- 协方差的值如果为正值,则说明两者是正相关的 (从协方差可以引出 “相关系数” 的定义),结果为负值就说明负相关的,如果为 0,也是就是统计上说的 “相互独立”。
- 协方差的绝对值越大,两者对彼此的影响越大,反之,越小。
- 协方差的大小和两个变量的量纲有关,因此不适合做比较。(皮尔逊相关系数就是在我们总体协方差的基础上消去量纲的影响)
2、总体皮尔逊相关系数
为了剔除量纲的影响就需要将总体协方差除以两个变量的标准差的乘积
- 皮尔逊相关系数也可以看成是剔除了两个变量量纲影响,即将 X 和 Y 标准化后的协方差。
- 皮尔逊相关系数反应的是一种线性相关系数
3、样本皮尔逊相关系数
- 和总体皮尔逊相关系数不同的是,样本皮尔逊相关系数的协方差与标准差的分母为 n − 1 n-1 n−1
4、相关性可视化
5、皮尔逊相关系数的一些理解误区
-
可以看出,皮尔逊相关系数受异常值影响很大
-
上图的各个系数非线性
故我们在使用皮尔逊相关系数时需要注意以下几点:
- 你必须先确认这两个变量是线性相关的,然后这个相关系数才能告诉你他俩相关程度如何
- 非线性相关也会导致线性相关系数很大
- 离群点对相关系数的影响很大
- 如果两个变量的相关系数很大也不能说明两者相关,可能是受到了异常值的影响
- 相关系数计算结果为 0,只能说不是线性相关,但说不定会有更复杂的相关关系(非线性相关)
- 如果两个变量本身就是线性的关系,那么皮尔逊相关系数绝对值大的就是相关性强,小的就是相关性弱;
- 在不确定两个变量是什么关系的情况下,即使算出皮尔逊相关系数,发现很大,也不能说明那两个变量线性相关,甚至不能说他们相关,我们一定要画出散点图来看才行。(故在建模过程中要先使用 spss 计算出两两之间的相关系数散点图再使用 matlab 计算)