相关系数

统计三大相关系数

P e a r s o n Pearson Pearson相关系数-连续变量

公式

ρ = c o v ( X , Y ) V a r ( X ) V a r ( Y ) \rho = \frac{cov(X, Y)}{\sqrt{Var(X)Var(Y)}} ρ=Var(X)Var(Y) cov(X,Y)

V a r ( X ) = E [ ( X − E ( X ) ) 2 ] = E X 2 − E ( X ) 2 = 1 n ∑ i = 1 n ( X i − X ˉ ) 2 Var(X) = E[(X-E(X))^2] = EX^2 - E(X)^2 =\frac{1}{n}\sum^n_{i=1}(X_{i}-\bar{X})^2 Var(X)=E[(XE(X))2]=EX2E(X)2=n1i=1n(XiXˉ)2

X ˉ = E ( X ) \bar{X} = E(X) Xˉ=E(X)

V a r ( Y ) = E [ ( Y − E ( Y ) ) 2 ] = E Y 2 − E ( Y ) 2 = 1 n ∑ i = 1 n ( Y i − Y ˉ ) 2 Var(Y) = E[(Y-E(Y))^2] = EY^2 - E(Y)^2 =\frac{1}{n}\sum^n_{i=1}(Y_{i}-\bar{Y})^2 Var(Y)=E[(YE(Y))2]=EY2E(Y)2=n1i=1n(YiYˉ)2

Y ˉ = E ( Y ) \bar{Y} = E(Y) Yˉ=E(Y)

使用条件

  • 连续型变量
  • 两个变量分别服从正态分布,通常用t检验检查相关系数的显著性
  • 两个变量的标准差不为0

总结

p e a r s o n pearson pearson描述的是线性相关关系,取值[-1, 1]。负数表示负相关,正数表示正相关。在显著性的前提下,绝对值越大,相关性越强。绝对值为0, 无线性关系;绝对值为1表示完全线性相关。

s p e a r m a n spearman spearman相关系数-定序变量

公式

ρ s = 1 − 6 ∑ i = 1 n d i 2 n ( n 2 − 1 ) \rho_{s} = 1 - \frac{6\sum^n_{i=1}d^2_{i}}{n(n^2-1)} ρs=1n(n21)6i=1ndi2

样例

X排序XX’Y排序YY’ d i 2 d^2_{i} di2
11490527561
490431754410
1430434251
4314244720
301137341
33642239

注:X’代表对应位置的X排序后的次序,如11排序后再第5位,其所对应的X’就为5.

k e n d a l l kendall kendall相关系数-分类变量

公式一

$\tau_{a} = \frac{C - D}{\frac{1}{2}N(N - 1)}\$

其中 C C C表示 X Y XY XY中拥有一致性的元素的对数, D D D表示 X Y XY XY中不一致的元素的对数。

假设两个随机变量分别为 X X X Y Y Y(也可以看做两个集合),它们的元素个数均为 N N N,两个随即变量取的第 i ( 1 ≤ i ≤ N ) i(1 \leq i \leq N) i(1iN)个值分别用 X i X_{i} Xi Y i Y_{i} Yi表示。 X X X Y Y Y中的对应元素组成一个元素对集合 X Y XY XY,其包含的元素为 ( X i , Y i ) ( 1 ≤ i ≤ N ) (X_{i}, Y_{i})(1 \leq i \leq N) (Xi,Yi)(1iN)。当集合 X Y XY XY中任意两个元素 ( X i , Y i ) (X_{i}, Y_{i}) (Xi,Yi) ( X j , Y j ) (X_{j}, Y_{j}) (Xj,Yj)的排行相同时(也就是说当出现情况1或2时);

  • 情况1: X i > X j X_{i}>X_{j} Xi>Xj Y i > Y j Y_{i}>Y_{j} Yi>Yj
  • 情况2: X i < X j X_{i}<X_{j} Xi<Xj Y i < Y j Y_{i}<Y_{j} Yi<Yj
  • 情况3: X i > X j X_{i}>X_{j} Xi>Xj Y i < Y j Y_{i}<Y_{j} Yi<Yj
  • 情况4: X i < X j X_{i}<X_{j} Xi<Xj Y i > Y j Y_{i}>Y_{j} Yi>Yj
  • 情况5: X i = X j X_{i}=X_{j} Xi=Xj
  • 情况6: Y i = Y j Y_{i}=Y_{j} Yi=Yj

一致性:情况1,情况2
不一致性:情况3,情况4
既不一致也不是不一致:情况5,情况6

适用条件

这一公式仅适用于集合X与Y中均不存在相同元素的情况(集合中各个元素唯一)。

公式二

τ b = C − D ( N 3 − N 1 ) ( N 3 − N 2 ) \tau_{b} = \frac{C - D}{\sqrt{(N_{3} - N_{1})(N_{3} - N_{2})}} τb=(N3N1)(N3N2) CD

其中 N 3 = 1 2 N ( N − 1 ) ; N_{3} = \frac{1}{2}N(N-1);\quad N3=21N(N1); N 1 = ∑ i = 1 s 1 2 U i ( U i − 1 ) ; N_{1} = \sum^s_{i=1}\frac{1}{2}U_{i}(U_{i} - 1);\quad N1=i=1s21Ui(Ui1); N 2 = ∑ i = 1 t 1 2 V i ( V i − 1 ) ; N_{2} = \sum^t_{i=1}\frac{1}{2}V_{i}(V_{i} - 1);\quad N2=i=1t21Vi(Vi1);


N 1 N_{1} N1 N 2 N_{2} N2分别是针对集合 X X X Y Y Y计算的,现在以计算 N 1 N_{1} N1为例,给出 N 1 N_{1} N1的由来( N 2 N_{2} N2的计算可以类推):

将X中的相同元素分别组合成小集合, s s s表示集合X中拥有的小集合数(例如 X X X包含元素:1 2 3 4 3 3 2,那么这里得到的 s s s则为2,因为只有2、3有相同元素), U i U_{i} Ui表示第i个小集合所包含的元素数。 N 2 N_{2} N2在集合Y的基础上计算而得。

适用条件

这一公式适用于集合X或Y中存在相同元素的情况(当然,如果X或Y中均不存在相同的元素时,公式二便等同于公式一)。

公式三

公式三仅适用于表格表示的随机变量。

τ c = C − D 1 2 N 2 M − 1 M \tau_{c} = \frac{C - D}{\frac{1}{2}N^2\frac{M - 1}{M}} τc=21N2MM1CD

通常人们会将两个随机变量的取值制作成一个表格,例如有10个样本,对每个样本进行两项指标测试X、Y(指标X、Y的取值均为1到3)。根据样本的X、Y指标取值,得到以下二维表格(表1):
在这里插入图片描述

注: X = 2 , Y = 2 X=2,Y=2 X=2,Y=2所对应的格子为2,表示 X X X属性为2, Y Y Y属性为2的样本有2个

由表1可以得到 X X X Y Y Y的可以以集合的形式表示为:

X = { 1 , 1 , 2 , 2 , 2 , 2 , 2 , 3 , 3 , 3 } X=\{1, 1, 2, 2, 2, 2, 2, 3, 3, 3\} X={1,1,2,2,2,2,2,3,3,3}

Y = { 1 , 2 , 1 , 1 , 2 , 2 , 3 , 2 , 3 , 3 } Y=\{1, 2, 1, 1, 2, 2, 3, 2, 3, 3\} Y={1,2,1,1,2,2,3,2,3,3}

其中M表示长方形表格中行数与列数中较小的一个,即M表示 X , Y X,Y X,Y中属性数较少的变量的属性数。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值