相关系数定义为两个向量之间的相似性,最常用的相关系数是皮尔森相关,但是实际情况更加复杂,因此我们介绍一下统计学中出现的相关系数。
一 皮尔森相关
皮尔森相关描述两个变量之间的线性相关
x,y 为两个变量。
适用条件:
1. 两个变量都是连续变量
2. 每个变量都应该是 正态分布,或者接近正态分布的单峰对称分布
3. 变量之间应该为线性关系
当对每个变量进行0均值后,相关性就与余弦距离相同
二 斯皮尔曼 相关
斯皮尔曼等级相关是根据等级资料研究两个变量间相关关系的方法。它是依据两列成对等级的各对等级数之差来进行计算的,所以又称为“等级差数法”。
斯皮尔曼等级相关对数据条件的要求没有积差相关系数严格,只要两个变量的观测值是成对的等级评定资料,或者是由连续变量观测资料转化得到的等级资料,不论两个变量的总体分布形态、样本容量的大小如何,都可以用斯皮尔曼等级相关来进行研究。
总而言之,斯皮尔曼相关的计算将原始数据替