三大相关系数:Pearson、Spearman和Kendall

三个相关性系数(Pearson、Spearman和Kendall)反映的都是两个变量之间变化趋势的方向以及程度,其值范围为-1到+1,0表示两个变量不相关,正值表示正相关,负值表示负相关,值越大表示相关性越强。

1. Pearson(皮尔森相关性系数)

公式如下:

\large \rho_{X,Y}=\frac{cov\left (X,Y \right )}{\sigma_X\sigma_Y}=\frac{E((X-\mu_X)(Y-\mu_Y))}{\sigma_X\sigma_Y}=\frac{E(XY)-E(X)E(Y)}{\sqrt{E(X^2)-E^2(X)}\sqrt{E(Y^2)-E^2(Y)}}

就是X,Y两个变量的协方差与两个变量的标准差之积的比值。

所以X,Y两个变量的标准差不能为零。

皮尔森相关系数受异常值的影响比较大。

2. Spearman

斯皮尔曼相关性系数,通常也叫斯皮尔曼秩相关系数。“秩”,可以理解成就是一种顺序或者排序,那么它就是根据原始数据的排序位置进行求解,这种表征形式就没有了求皮尔森相关性系数时那些限制。下面来看一下它的计算公式:

\large \rho_s=1-\frac{6\sum d_i^2}{n\left ( n^{2} - 1 \right )}

计算过程就是:

       1. 对两个变量(X,Y)的数据进行排序(统一用升序或降序),每个变量在排序之后的位置即为其秩次(X', Y'),原始位置相同的X,Y的秩次X', Y'的差值即为\large d_i。n是变量的个数(或者对数),下图的数据是按照降序排列的,n=6.

上图中的Spearman相关系数为:

\large \rho _s = 1 -\frac{(1+1+1+9)}{6*(6^2-1)}=0.657

可以看出,Spearman是根据变量的大小顺序所确定的,所以一个异常值不会对Spearman相关系数的计算造成很大影响。

3. Kendall相关系数

它也是一种秩相关系数,不过它所计算的对象是分类变量,具体计算方法这里不列出。

4. 参考链接

http://blog.sina.com.cn/s/blog_69e75efd0102wmd2.html

 

  • 5
    点赞
  • 48
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值