pearson相关系数
研究变量之间 线性相关 程度的量,一般用r表示。
两个随机变量X,Y之间的pearson相关系数定义为:
ρ
X
,
Y
=
c
o
v
(
X
,
Y
)
σ
X
σ
Y
=
E
[
(
X
−
μ
X
)
(
Y
−
μ
Y
)
]
σ
X
σ
Y
,
{\rm \rho}_{X,Y}=\frac{{\rm cov}(X,Y)}{\sigma_X \sigma_Y}=\frac{{\rm E}[(X-\mu_X)(Y-\mu_Y)]}{\sigma_X \sigma_Y},
ρX,Y=σXσYcov(X,Y)=σXσYE[(X−μX)(Y−μY)],
值介于-1~1之间。
以上是总体相关系数,用样本估算的相关系数为:
r
=
∑
i
=
1
n
(
x
i
−
x
ˉ
)
(
y
i
−
y
ˉ
)
∑
i
=
1
n
(
x
i
−
x
ˉ
)
2
∑
i
=
1
n
(
y
i
−
y
ˉ
)
2
r=\frac{\sum_{i=1}^n (x_i - \bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^n (x_i-\bar{x})^2}\sqrt{\sum_{i=1}^n(y_i-\bar{y})^2}}
r=∑i=1n(xi−xˉ)2∑i=1n(yi−yˉ)2∑i=1n(xi−xˉ)(yi−yˉ)
r>0时表示正相关,r<0时表示负相关。
相关系数强度判断(绝对值):
0.8~1.0极强相关
0.6~0.8强相关
0.4~0.6中等程度相关
0.2~0.4弱相关
0~0.2极弱或不相关
理解角度1: 两个向量的夹角余弦。
两个变量的样本向量
x
=
(
x
1
,
x
2
,
.
.
.
,
x
n
)
x=(x_1,x_2,...,x_n)
x=(x1,x2,...,xn),
y
=
(
y
1
,
y
2
,
.
.
.
,
y
n
)
y=(y_1,y_2,...,y_n)
y=(y1,y2,...,yn)。
Pearson相关系数可以看作这两个向量中心化后 的夹角余弦值。
【显然,余弦值用来刻画两个向量的角度,角度越小,相关性越大;角度越大,相关性越小。余弦值为1时,夹角为0;余弦值为0时,互相垂直;余弦值为-1时,反方向。这与pearson相关系数描述相关程度一致。】
★理解角度2: pearson相关系数无非就是协方差做标准化。
观察协方差的式子
C
o
v
(
X
,
Y
)
=
E
[
(
X
−
μ
x
)
(
Y
−
μ
y
)
]
Cov(X,Y) = E[(X-\mu_x)(Y-\mu_y)]
Cov(X,Y)=E[(X−μx)(Y−μy)],翻译一下就是:每个时刻X与其均值之差 乘以 Y值与其均值之差,将所有时刻的乘积相加 然后求 均值。
如果乘积是正的,说明同向变化;乘积是负的说明反向变化。正的项越多,说明同向变化的次数越多;反之,亦然。
总结: 协方差越大,同向程度越高;协方差越小,反向程度越高。如果接近0,说明同向次数与反向次数差不多,没有规律。
注意: 1. 这里的相关性指的是两个变量子啊变化过程中,同向变化,还是反向变化。
横轴是时间,纵轴是两个变量,画出来大概是:
2. 如果画两个变量的散点图,它们强相关,那么散点应该围绕一条直线。因此,也说Pearson系数描述的是线性相关。
具体可以看这一篇文章,目前看过讲的最清楚,最通俗的:https://www.zhihu.com/question/20852004/answer/134902061
spearman秩相关系数
学习链接:link
spearman秩相关系数是一种非参数统计相关性检验,一般用
ρ
\rho
ρ表示。
它表示的是两个变量有多大程度可以用单调函数描绘。在单调关系中,变量趋于一起变化,但是不一定以恒定速率变化。 两个变量单调相关时,spearman相关系数为+1或-1。
两个变量单调相关时,spearman相关系数为+1或者-1.
Spearman相关系数定义为两个变量的秩统计量之间的pearson相关系数。设有n组观测样本
X
i
,
Y
i
,
i
=
1
,
2
,
.
.
.
,
n
X_i,Y_i, i=1,2,...,n
Xi,Yi,i=1,2,...,n. 对这组样本进行排序,得到秩统计量
x
i
,
y
i
x_i,y_i
xi,yi,那么
ρ
\rho
ρ的计算公式为:
ρ
=
1
−
6
∑
d
i
2
n
(
n
2
−
1
)
\rho = 1-\frac{6\sum d_i^2}{n(n^2-1)}
ρ=1−n(n2−1)6∑di2
这里
d
i
=
x
i
−
y
i
d_i=x_i-y_i
di=xi−yi,表示两个秩的差。【就是对两个变量的秩统计量求pearson相关系数,以上公式是化简后的结果。】
pearson相关系数和spearman相关系数的区别
学习链接:link
pearson相关系数为+1时,意味着,一个变量增加时,另一个变量增加一致的量。
如果一个变量在另一个变量增加时增加,但是增量不一致,则Pearson系数小于+1,但是spearman系数仍然等于1.
非线性相关时,或关系为随机时,两个相关系数都几乎为0.
如果一个变量在另一个变量减少时减少,但是增量不一致,则Pearson系数大于-1,但是spearman系数仍然等于-1.
注意:1. pearson相关系数仅评估线性关系;spearman相关系数仅评估单调关系。但是,即使两种相关系数为0,两个变量之间也有可能存在其他非单调关系!!
2. spearman相关系数对于数据错误和极端值的反应不敏感。
举例:
y=x^3 ,x和y的pearson相关系数不是1,但spearman相关系数是1. 【使用pandas中的相关系数计算函数】
x = pd.Series(np.arange(1, 100))
y = pd.Series(x ** 4)
D = pd.concat([x, y], axis=1)
print(D.corr(method='pearson'))
print(D.corr(method='spearman'))
0 1
0 1.000000 0.867294
1 0.867294 1.000000
0 1
0 1.0 1.0
1 1.0 1.0