文章目录
相关文章:
无监督学习 | KMeans之Skleaen实现:电影评分聚类
1. 聚类评估指标
Clustering performance evaluation
聚类性能度量亦称聚类“有效性指标
”(validity index)。与监督学习中的性能度量相似,对聚类结果,我们需通过某种性能度量来评估其好坏;另一方面,若明确了最终将要使用的性能度量,则可直接将其作为聚类过程的优化目标,从而更好地得到符合要求的聚类结果。
聚类是将样本集D划分为若干互不相关的子集,即样本簇
(类),而我们又希望聚类结果的“簇内相似度
”(intra-cluster similarity)高且“簇间相似度
”(intra-cluster similarity)低。
聚类性能度量大致有两类,一类是将聚类结果与某个“参考模型
”(reference model,样本含标签的)进行比较,称为“外部指标
”(external index);另一类是直接考察聚类结果而不利用任何参考模型,称为“内部指标
”(internal index)。
对数据集 D = { x 1 , x 2 , ⋯ , x n } D=\{x_1,x_2,\cdots,x_n\} D={ x1,x2,⋯,xn},假定通过聚类给出的 k k k 个簇,划分为 C = { C 1 , C 2 , ⋯ , C k } C=\{C_1,C_2,\cdots,C_k\} C={ C1,C2,⋯,Ck},参考模型给出的 s s s 个簇划分为 C ∗ = { C 1 ∗ , C 2 ∗ , ⋯ , C s ∗ } C^*=\{C_1^*,C_2^*,\cdots,C_s^*\} C∗={ C1∗,C2∗,⋯,Cs∗}。相应地,令 λ \lambda λ 与 λ ∗ \lambda^* λ∗ 分别表示 C C C 与 C ∗ C^* C∗ 对应的簇标记向量。我们将样本两两配对考虑,定义:
a = ∣ S S ∣ , S S = { ( x i , x j ) ∣ λ i = λ j , λ i ∗ = λ j ∗ , i < j } (1) a=|SS|,\quad SS=\{(x_i,x_j)| \lambda_i=\lambda_j,\lambda_i^*=\lambda_j^*,i<j\} \tag{1} a=∣SS∣,SS={ (xi,xj)∣λi=λj,λi∗=λj∗,i<j}(1)
b = ∣ S D ∣ , S D = { ( x i , x j ) ∣ λ i = λ j , λ i ∗ ≠ λ j ∗ , i < j } (2) b=|SD|,\quad SD=\{(x_i,x_j)| \lambda_i=\lambda_j,\lambda_i^*\neq\lambda_j^*,i<j\} \tag{2} b=∣SD∣,SD={ (xi,xj)∣λi=λj,λi∗=λj∗,i<j}(2)
c = ∣ D S ∣ , D S = { ( x i , x j ) ∣ λ i ≠ λ j , λ i ∗ = λ j ∗ , i < j } (3) c=|DS|,\quad DS=\{(x_i,x_j)| \lambda_i\neq\lambda_j,\lambda_i^*=\lambda_j^*,i<j\} \tag{3} c=∣DS∣,DS={ (xi,xj)∣λi=λj,λi∗=λj∗,i<j}(3)
d = ∣ D D ∣ , D D = { ( x i , x j ) ∣ λ i ≠ λ j , λ i ∗ ≠ λ j ∗ , i < j } (4) d=|DD|,\quad DD=\{(x_i,x_j)| \lambda_i\neq\lambda_j,\lambda_i^*\neq\lambda_j^*,i<j\} \tag{4} d=∣DD∣,DD={ (xi,xj)∣λi=λj,λi∗=λj∗,i<j}(4)
其中集合 S S SS SS 表示点 i i i 和点 j j j 在聚类结果中处于同一个簇,而实际上这两个点也是处于同一个簇的所有点的集合,相当于混淆矩阵中的 TP;
集合 S D SD SD 表示点 i i i 和点 j j j 在聚类结果中处于同一个簇,而实际上这两个点不处于同一个簇的所有点的集合,相当于混淆矩阵中的 FP,…。
由于每个样本对 ( x i , x j ) ( i < j ) (x_i,x_j)(i<j) (xi,xj