统计三大相关系数
P e a r s o n Pearson Pearson相关系数-连续变量
公式
ρ
=
c
o
v
(
X
,
Y
)
V
a
r
(
X
)
V
a
r
(
Y
)
\rho = \frac{cov(X, Y)}{\sqrt{Var(X)Var(Y)}}
ρ=Var(X)Var(Y)cov(X,Y)
V
a
r
(
X
)
=
E
[
(
X
−
E
(
X
)
)
2
]
=
E
X
2
−
E
(
X
)
2
=
1
n
∑
i
=
1
n
(
X
i
−
X
ˉ
)
2
Var(X) = E[(X-E(X))^2] = EX^2 - E(X)^2 =\frac{1}{n}\sum^n_{i=1}(X_{i}-\bar{X})^2
Var(X)=E[(X−E(X))2]=EX2−E(X)2=n1∑i=1n(Xi−Xˉ)2
X
ˉ
=
E
(
X
)
\bar{X} = E(X)
Xˉ=E(X)
V
a
r
(
Y
)
=
E
[
(
Y
−
E
(
Y
)
)
2
]
=
E
Y
2
−
E
(
Y
)
2
=
1
n
∑
i
=
1
n
(
Y
i
−
Y
ˉ
)
2
Var(Y) = E[(Y-E(Y))^2] = EY^2 - E(Y)^2 =\frac{1}{n}\sum^n_{i=1}(Y_{i}-\bar{Y})^2
Var(Y)=E[(Y−E(Y))2]=EY2−E(Y)2=n1∑i=1n(Yi−Yˉ)2
Y
ˉ
=
E
(
Y
)
\bar{Y} = E(Y)
Yˉ=E(Y)
使用条件
- 连续型变量
- 两个变量分别服从正态分布,通常用t检验检查相关系数的显著性
- 两个变量的标准差不为0
总结
p e a r s o n pearson pearson描述的是线性相关关系,取值[-1, 1]。负数表示负相关,正数表示正相关。在显著性的前提下,绝对值越大,相关性越强。绝对值为0, 无线性关系;绝对值为1表示完全线性相关。
s p e a r m a n spearman spearman相关系数-定序变量
公式
ρ s = 1 − 6 ∑ i = 1 n d i 2 n ( n 2 − 1 ) \rho_{s} = 1 - \frac{6\sum^n_{i=1}d^2_{i}}{n(n^2-1)} ρs=1−n(n2−1)6∑i=1ndi2
样例
X | 排序X | X’ | Y | 排序Y | Y’ | d i 2 d^2_{i} di2 |
---|---|---|---|---|---|---|
11 | 490 | 5 | 2 | 75 | 6 | 1 |
490 | 43 | 1 | 75 | 44 | 1 | 0 |
14 | 30 | 4 | 3 | 42 | 5 | 1 |
43 | 14 | 2 | 44 | 7 | 2 | 0 |
30 | 11 | 3 | 7 | 3 | 4 | 1 |
3 | 3 | 6 | 42 | 2 | 3 | 9 |
注:X’代表对应位置的X排序后的次序,如11排序后再第5位,其所对应的X’就为5.
k e n d a l l kendall kendall相关系数-分类变量
公式一
$\tau_{a} = \frac{C - D}{\frac{1}{2}N(N - 1)}\$
其中
C
C
C表示
X
Y
XY
XY中拥有一致性的元素的对数,
D
D
D表示
X
Y
XY
XY中不一致的元素的对数。
假设两个随机变量分别为 X X X、 Y Y Y(也可以看做两个集合),它们的元素个数均为 N N N,两个随即变量取的第 i ( 1 ≤ i ≤ N ) i(1 \leq i \leq N) i(1≤i≤N)个值分别用 X i X_{i} Xi、 Y i Y_{i} Yi表示。 X X X与 Y Y Y中的对应元素组成一个元素对集合 X Y XY XY,其包含的元素为 ( X i , Y i ) ( 1 ≤ i ≤ N ) (X_{i}, Y_{i})(1 \leq i \leq N) (Xi,Yi)(1≤i≤N)。当集合 X Y XY XY中任意两个元素 ( X i , Y i ) (X_{i}, Y_{i}) (Xi,Yi)与 ( X j , Y j ) (X_{j}, Y_{j}) (Xj,Yj)的排行相同时(也就是说当出现情况1或2时);
- 情况1: X i > X j X_{i}>X_{j} Xi>Xj且 Y i > Y j Y_{i}>Y_{j} Yi>Yj
- 情况2: X i < X j X_{i}<X_{j} Xi<Xj且 Y i < Y j Y_{i}<Y_{j} Yi<Yj
- 情况3: X i > X j X_{i}>X_{j} Xi>Xj且 Y i < Y j Y_{i}<Y_{j} Yi<Yj
- 情况4: X i < X j X_{i}<X_{j} Xi<Xj且 Y i > Y j Y_{i}>Y_{j} Yi>Yj
- 情况5: X i = X j X_{i}=X_{j} Xi=Xj
- 情况6: Y i = Y j Y_{i}=Y_{j} Yi=Yj
一致性:情况1,情况2
不一致性:情况3,情况4
既不一致也不是不一致:情况5,情况6
适用条件
这一公式仅适用于集合X与Y中均不存在相同元素的情况(集合中各个元素唯一)。
公式二
τ b = C − D ( N 3 − N 1 ) ( N 3 − N 2 ) \tau_{b} = \frac{C - D}{\sqrt{(N_{3} - N_{1})(N_{3} - N_{2})}} τb=(N3−N1)(N3−N2)C−D
其中 N 3 = 1 2 N ( N − 1 ) ; N_{3} = \frac{1}{2}N(N-1);\quad N3=21N(N−1); N 1 = ∑ i = 1 s 1 2 U i ( U i − 1 ) ; N_{1} = \sum^s_{i=1}\frac{1}{2}U_{i}(U_{i} - 1);\quad N1=∑i=1s21Ui(Ui−1); N 2 = ∑ i = 1 t 1 2 V i ( V i − 1 ) ; N_{2} = \sum^t_{i=1}\frac{1}{2}V_{i}(V_{i} - 1);\quad N2=∑i=1t21Vi(Vi−1);
N
1
N_{1}
N1、
N
2
N_{2}
N2分别是针对集合
X
X
X、
Y
Y
Y计算的,现在以计算
N
1
N_{1}
N1为例,给出
N
1
N_{1}
N1的由来(
N
2
N_{2}
N2的计算可以类推):
将X中的相同元素分别组合成小集合, s s s表示集合X中拥有的小集合数(例如 X X X包含元素:1 2 3 4 3 3 2,那么这里得到的 s s s则为2,因为只有2、3有相同元素), U i U_{i} Ui表示第i个小集合所包含的元素数。 N 2 N_{2} N2在集合Y的基础上计算而得。
适用条件
这一公式适用于集合X或Y中存在相同元素的情况(当然,如果X或Y中均不存在相同的元素时,公式二便等同于公式一)。
公式三
公式三仅适用于表格表示的随机变量。
τ
c
=
C
−
D
1
2
N
2
M
−
1
M
\tau_{c} = \frac{C - D}{\frac{1}{2}N^2\frac{M - 1}{M}}
τc=21N2MM−1C−D
通常人们会将两个随机变量的取值制作成一个表格,例如有10个样本,对每个样本进行两项指标测试X、Y(指标X、Y的取值均为1到3)。根据样本的X、Y指标取值,得到以下二维表格(表1):
注:
X
=
2
,
Y
=
2
X=2,Y=2
X=2,Y=2所对应的格子为2,表示
X
X
X属性为2,
Y
Y
Y属性为2的样本有2个
由表1可以得到
X
X
X及
Y
Y
Y的可以以集合的形式表示为:
X = { 1 , 1 , 2 , 2 , 2 , 2 , 2 , 3 , 3 , 3 } X=\{1, 1, 2, 2, 2, 2, 2, 3, 3, 3\} X={1,1,2,2,2,2,2,3,3,3};
Y
=
{
1
,
2
,
1
,
1
,
2
,
2
,
3
,
2
,
3
,
3
}
Y=\{1, 2, 1, 1, 2, 2, 3, 2, 3, 3\}
Y={1,2,1,1,2,2,3,2,3,3};
其中M表示长方形表格中行数与列数中较小的一个,即M表示
X
,
Y
X,Y
X,Y中属性数较少的变量的属性数。