在做海量数据聚类分析(MiniBatch Kmeans)的时候,常常因为数据量太大画不出 dendrogram,没办法用 Elbow Method 确定 K 值。这时需要其他 metrics 辅助确定 K 值。在做聚类之前,一定要先做去重啊!
Calinski-Harbasz Score (CH指标)
Caliński, Tadeusz, and Jerzy Harabasz. “A dendrite method for cluster analysis.” Communications in Statistics-theory and Methods 3.1 (1974): 1-27.
-
Calinski-Harbasz Score 是通过评估 类之间方差 和 类内方差 来计算得分,值越大效果越好。