机器学习 | 聚类评估指标

相关文章:

机器学习 | 目录

机器学习 | 距离计算

无监督学习 | KMeans与KMeans++原理

无监督学习 | KMeans之Skleaen实现:电影评分聚类

1. 聚类评估指标

Clustering performance evaluation

聚类性能度量亦称聚类“有效性指标”(validity index)。与监督学习中的性能度量相似,对聚类结果,我们需通过某种性能度量来评估其好坏;另一方面,若明确了最终将要使用的性能度量,则可直接将其作为聚类过程的优化目标,从而更好地得到符合要求的聚类结果。

聚类是将样本集D划分为若干互不相关的子集,即样本簇(类),而我们又希望聚类结果的“簇内相似度”(intra-cluster similarity)高且“簇间相似度”(intra-cluster similarity)低。

聚类性能度量大致有两类,一类是将聚类结果与某个“参考模型”(reference model,样本含标签的)进行比较,称为“外部指标”(external index);另一类是直接考察聚类结果而不利用任何参考模型,称为“内部指标”(internal index)。

对数据集 D = { x 1 , x 2 , ⋯   , x n } D=\{x_1,x_2,\cdots,x_n\} D={ x1,x2,,xn},假定通过聚类给出的 k k k 个簇,划分为 C = { C 1 , C 2 , ⋯   , C k } C=\{C_1,C_2,\cdots,C_k\} C={ C1,C2,,Ck},参考模型给出的 s s s 个簇划分为 C ∗ = { C 1 ∗ , C 2 ∗ , ⋯   , C s ∗ } C^*=\{C_1^*,C_2^*,\cdots,C_s^*\} C={ C1,C2,,Cs}。相应地,令 λ \lambda λ λ ∗ \lambda^* λ 分别表示 C C C C ∗ C^* C 对应的簇标记向量。我们将样本两两配对考虑,定义:

a = ∣ S S ∣ , S S = { ( x i , x j ) ∣ λ i = λ j , λ i ∗ = λ j ∗ , i < j } (1) a=|SS|,\quad SS=\{(x_i,x_j)| \lambda_i=\lambda_j,\lambda_i^*=\lambda_j^*,i<j\} \tag{1} a=SS,SS={ (xi,xj)λi=λj,λi=λj,i<j}(1)

b = ∣ S D ∣ , S D = { ( x i , x j ) ∣ λ i = λ j , λ i ∗ ≠ λ j ∗ , i < j } (2) b=|SD|,\quad SD=\{(x_i,x_j)| \lambda_i=\lambda_j,\lambda_i^*\neq\lambda_j^*,i<j\} \tag{2} b=SD,SD={ (xi,xj)λi=λj,λi=λj,i<j}(2)

c = ∣ D S ∣ , D S = { ( x i , x j ) ∣ λ i ≠ λ j , λ i ∗ = λ j ∗ , i < j } (3) c=|DS|,\quad DS=\{(x_i,x_j)| \lambda_i\neq\lambda_j,\lambda_i^*=\lambda_j^*,i<j\} \tag{3} c=DS,DS={ (xi,xj)λi=λj,λi=λj,i<j}(3)

d = ∣ D D ∣ , D D = { ( x i , x j ) ∣ λ i ≠ λ j , λ i ∗ ≠ λ j ∗ , i < j } (4) d=|DD|,\quad DD=\{(x_i,x_j)| \lambda_i\neq\lambda_j,\lambda_i^*\neq\lambda_j^*,i<j\} \tag{4} d=DD,DD={ (xi,xj)λi=λj,λi=λj,i<j}(4)

其中集合 S S SS SS 表示点 i i i 和点 j j j聚类结果中处于同一个簇,而实际上这两个点也是处于同一个簇的所有点的集合,相当于混淆矩阵中的 TP;

集合 S D SD SD 表示点 i i i 和点 j j j聚类结果中处于同一个簇,而实际上这两个点不处于同一个簇的所有点的集合,相当于混淆矩阵中的 FP,…。

由于每个样本对 ( x i , x j ) ( i < j ) (x_i,x_j)(i<j) (xi,xj

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值