一、解释
肯德尔系数(Kendall's Tau)是一种用于测量两个变量之间相关性的非参数统计量。
与皮尔逊相关系数不同,肯德尔系数不依赖于变量的分布假设,因此在处理非正态分布或存在离群点的数据时更为稳健。
肯德尔相关也是基于数据对象的秩来计算两个变量之间的相关性,因此很适用于具有等级的变量(排序型),这点和斯皮尔曼系数相似。
肯德尔系数的取值范围在 -1 和 1 之间,数值越大表示相关性越强,数值为正表示正相关,数值为负表示负相关。
肯德尔系数主要有两种变体:肯德尔 Tau-a 和肯德尔 Tau-b。Tau-a 适用于没有平局情况的数据集,而 Tau-b 则修正了平局的影响,适用于更广泛的数据场景。
1. 肯德尔 Tau-a
肯德尔 Tau-a 的计算公式如下:
其中:
是符合顺序对的数量(Concordant Pairs)。
是不符合顺序对的数量(