专注系列化、高质量的R语言教程
前面已经介绍了皮尔逊相关系数和斯皮尔曼相关系数,详见推文:相关系数和相关性分析(上):皮尔逊相关系数、斯皮尔曼相关系数。
本篇目录如下:
3 肯德尔(Kendall)相关系数
3.1 符号说明
3.2 计算公式
3.3 显著性检验
3.4 案例
3 肯德尔(Kendall)相关系数
3.1 符号说明
与斯皮尔曼系数一样,肯德尔相关系数也是用来度量有序变量相关性的指标,并且也用到秩。
为了方便表示,分别使用、表示两个变量,变量长度(样本数)记为,表示样本的变量值。、分别表示样本在变量和中的秩。
变量是否存在重复值会直接影响到肯德尔相关系数的计算和显著性检验。有重复值的情况称为“tie”。
记变量的重值数目为,表示第个重复值的重复次数();表示变量的重复值数目,表示第个重复值的重复次数()。
任选两个样本,如、,比较它们在两个变量上秩的大小关系:
若秩在两个变量上的大小方向一致,则称它们为“一致对”;
若秩在两个变量上的大小方向相反,则称它们为“分歧对”。
一致对有两种情况,即样本在和上的秩均大于样本,或均小于后者,使用公式可表示为:
分歧对则可以如下表示:
如果给每个样本以唯一标识,则样本两两组合的情况数为:
在这些情况中,记一致对的情况数为,分歧对的情况数为。很容易理解,越大越倾向正相关;越大越倾向负相关。记为:
3.2 计算公式
当两个变量均不存在重复值时,显然有
肯德尔相关系数的计算公式如下:
当两个变量至少有一个存在重复值时,会出现如下情况:
此时,
肯德尔相关系数的计算公式如下[1]:
3.3 显著性检验
肯德尔相关系数的显著性检验非常复杂,且分为两种情况(指cor.test()
函数所采用):
两个变量都不存在重复值,可以构造统计量计算精确p值,也可以构造统计量计算近似p值;
至少有一个变量存在重复值,只能构造统计量计算近似p值。
当变量都不存在重复值时,构造如下统计量:
该统计量服从肯德尔分布,所计算的p值为精确值。
当变量都不存在重复值时,构造如下统计量:
该统计量近似服从标准正态分布(),所计算的p值为近似值。其中表示的方差,它的计算公式为:
当至少有一个变量存在重复值时,仍然构造类似上面的统计量,但的计算公式更加复杂: