pearson相关系数与spearman相关系数

pearson相关系数

研究变量之间 线性相关 程度的量,一般用r表示。
两个随机变量X,Y之间的pearson相关系数定义为:
ρ X , Y = c o v ( X , Y ) σ X σ Y = E [ ( X − μ X ) ( Y − μ Y ) ] σ X σ Y , {\rm \rho}_{X,Y}=\frac{{\rm cov}(X,Y)}{\sigma_X \sigma_Y}=\frac{{\rm E}[(X-\mu_X)(Y-\mu_Y)]}{\sigma_X \sigma_Y}, ρX,Y=σXσYcov(X,Y)=σXσYE[(XμX)(YμY)],
值介于-1~1之间。

以上是总体相关系数,用样本估算的相关系数为:
r = ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) ∑ i = 1 n ( x i − x ˉ ) 2 ∑ i = 1 n ( y i − y ˉ ) 2 r=\frac{\sum_{i=1}^n (x_i - \bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^n (x_i-\bar{x})^2}\sqrt{\sum_{i=1}^n(y_i-\bar{y})^2}} r=i=1n(xixˉ)2 i=1n(yiyˉ)2 i=1n(xixˉ)(yiyˉ)

r>0时表示正相关,r<0时表示负相关。

相关系数强度判断(绝对值):
0.8~1.0极强相关
0.6~0.8强相关
0.4~0.6中等程度相关
0.2~0.4弱相关
0~0.2极弱或不相关

理解角度1: 两个向量的夹角余弦。
两个变量的样本向量 x = ( x 1 , x 2 , . . . , x n ) x=(x_1,x_2,...,x_n) x=(x1,x2,...,xn) y = ( y 1 , y 2 , . . . , y n ) y=(y_1,y_2,...,y_n) y=(y1,y2,...,yn)
Pearson相关系数可以看作这两个向量中心化后夹角余弦值
【显然,余弦值用来刻画两个向量的角度,角度越小,相关性越大;角度越大,相关性越小。余弦值为1时,夹角为0;余弦值为0时,互相垂直;余弦值为-1时,反方向。这与pearson相关系数描述相关程度一致。】

★理解角度2: pearson相关系数无非就是协方差做标准化。
观察协方差的式子 C o v ( X , Y ) = E [ ( X − μ x ) ( Y − μ y ) ] Cov(X,Y) = E[(X-\mu_x)(Y-\mu_y)] Cov(X,Y)=E[(Xμx)(Yμy)],翻译一下就是:每个时刻X与其均值之差 乘以 Y值与其均值之差,将所有时刻的乘积相加 然后求 均值。
如果乘积是正的,说明同向变化;乘积是负的说明反向变化。正的项越多,说明同向变化的次数越多;反之,亦然。
总结: 协方差越大,同向程度越高;协方差越小,反向程度越高。如果接近0,说明同向次数与反向次数差不多,没有规律。

注意: 1. 这里的相关性指的是两个变量子啊变化过程中,同向变化,还是反向变化。
横轴是时间,纵轴是两个变量,画出来大概是:
在这里插入图片描述
2. 如果画两个变量的散点图,它们强相关,那么散点应该围绕一条直线。因此,也说Pearson系数描述的是线性相关。
在这里插入图片描述
具体可以看这一篇文章,目前看过讲的最清楚,最通俗的:https://www.zhihu.com/question/20852004/answer/134902061

spearman秩相关系数

学习链接:link

spearman秩相关系数是一种非参数统计相关性检验,一般用 ρ \rho ρ表示。
它表示的是两个变量有多大程度可以用单调函数描绘在单调关系中,变量趋于一起变化,但是不一定以恒定速率变化 两个变量单调相关时,spearman相关系数为+1或-1。
两个变量单调相关时,spearman相关系数为+1或者-1.

Spearman相关系数定义为两个变量的秩统计量之间的pearson相关系数。设有n组观测样本 X i , Y i , i = 1 , 2 , . . . , n X_i,Y_i, i=1,2,...,n Xi,Yi,i=1,2,...,n. 对这组样本进行排序,得到秩统计量 x i , y i x_i,y_i xi,yi,那么 ρ \rho ρ的计算公式为:
ρ = 1 − 6 ∑ d i 2 n ( n 2 − 1 ) \rho = 1-\frac{6\sum d_i^2}{n(n^2-1)} ρ=1n(n21)6di2
这里 d i = x i − y i d_i=x_i-y_i di=xiyi,表示两个秩的差。【就是对两个变量的秩统计量求pearson相关系数,以上公式是化简后的结果。】

pearson相关系数和spearman相关系数的区别

学习链接:link

pearson相关系数为+1时,意味着,一个变量增加时,另一个变量增加一致的量。
在这里插入图片描述
如果一个变量在另一个变量增加时增加,但是增量不一致,则Pearson系数小于+1,但是spearman系数仍然等于1.
在这里插入图片描述
非线性相关时,或关系为随机时,两个相关系数都几乎为0.
在这里插入图片描述
如果一个变量在另一个变量减少时减少,但是增量不一致,则Pearson系数大于-1,但是spearman系数仍然等于-1.
在这里插入图片描述
注意:1. pearson相关系数仅评估线性关系;spearman相关系数仅评估单调关系。但是,即使两种相关系数为0,两个变量之间也有可能存在其他非单调关系!!
在这里插入图片描述
2. spearman相关系数对于数据错误和极端值的反应不敏感

举例:
y=x^3 ,x和y的pearson相关系数不是1,但spearman相关系数是1. 【使用pandas中的相关系数计算函数】

x = pd.Series(np.arange(1, 100))
y = pd.Series(x ** 4)
D = pd.concat([x, y], axis=1)
print(D.corr(method='pearson'))
print(D.corr(method='spearman'))
          0         1
0  1.000000  0.867294
1  0.867294  1.000000
     0    1
0  1.0  1.0
1  1.0  1.0
  • 0
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值