聚类任务介绍

蓝田心语

已于 2023-01-24 09:34:46 修改

阅读量1.2k

点赞数

分类专栏：特征选择无监督学习文章标签：聚类算法

于 2023-01-23 11:16:13 首次发布

本文链接：https://blog.csdn.net/zht2002/article/details/128751864

版权

特征选择同时被 2 个专栏收录

2 篇文章

订阅专栏

无监督学习

1 篇文章

订阅专栏

文章介绍了聚类任务的基本概念，它是无监督学习的一部分，旨在将样本分为不相交的子集。聚类效果通过外部和内部指标评估，外部指标如Jaccard系数、FMI和RI关注与参考模型的匹配程度，内部指标则关注簇内的相似性和簇间的差异。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

2.2.4 Acc （Cluster Accuracy）聚类精度

2.2.5 Purity（纯度）

2.2.6 NMI（Normalized Mutual Information）归一化互信息

2.3 内部指标

2.3.1 DB指数（DBI）

2.3.2 Dune指数（DI）

1. 聚类任务的定义

一般认为，聚类任务属于无监督学习任务（Unsupervised Learning）

1.1 聚类任务的目的

聚类试图将样本划分为若干通常不相交的子集。

1.2 形式化描述

假设样本集 $D=\{x_1,x_2,x_3,...,x_m\}$ 共有m个样本
每个样本 $x_i=\{ x_{i1},x_{i2},...,x_{in}\}$ 是一个n维的特征向量
样本被划分为k个不相交的簇(cluster) $\{ C_i\vert i=1,2,...,k\}$ 。我们用 $\lambda_j\in \{1,2...,k\}$ 表示样本 $x_j$ 的簇标记。 i.e. $x_j \in C_{\lambda_j}$
聚类结果可以用m个元素的簇标记向量 $\lambda=\{ \lambda_1,\lambda_2,...,\lambda_m\}$ 来表示

2 性能度量

2.1 性能度量的目的

我们希望能够评估聚类效果的好坏。

比较理想的聚类效果应该是：簇内相似度高，簇间相似度低

可以将使用的性能度量作为聚类过程的优化目标

根据是否需要参考模型，可以将评价聚类效果的指标分为：外部指标（external index）和内部指标（internal index）

其中，参考模型可以认为是一个我们认为能够完全正确对该数据集进行聚类的模型，能够为我们提供ground truth.

2.2 外部指标

标准：准确率（贴合情况）

对样本集 $D=\{x_1,x_2,x_3,...,x_m\}$ ，通过我们的聚类算法给出的簇划分为： $C=\{ C_1,C_2,...C_k\}$ ,而参考模型给出的簇划分为： $C^*=\{ C_1^*,C_2^*,...C_s^*\}$ （其中s可能不等于k）。

令 $\lambda,\lambda^*$ 为两个簇划分对应的样本簇标记向量，则：

$a=\left | SS \right |,\, SS=\{ (x_i,x_j) \vert \lambda_i=\lambda_j,\lambda_i^*=\lambda_j^*,i<j\},$

$b=\left | SD \right |,\, SD=\{ (x_i,x_j) \vert \lambda_i=\lambda_j,\lambda_i^*\, !=\lambda_j^*,i<j\},$

$c=\left | DS \right |,\, DS=\{ (x_i,x_j) \vert \lambda_i\,!=\lambda_j,\lambda_i^*=\lambda_j^*,i<j\},$

$d=\left | DD \right |,\, DD=\{ (x_i,x_j) \vert \lambda_i\,!=\lambda_j,\lambda_i^*\,!=\lambda_j^*,i<j\},$

理解：

a 表示满足两个样本在C获得的簇标签相同，在 $C^*$ 获得标签也相同的数量
b 表示满足两个样本在C获得的簇标签相同，在 $C^*$ 获得标签不相同的数量
c 表示满足两个样本在C获得的簇标签不相同，在 $C^*$ 获得标签相同的数量
d 表示满足两个样本在C获得的簇标签不相同，在 $C^*$ 获得标签也不相同的数量
a+b+c+d= $C_m^2$ =m(m-1)/2

2.2.1 Jaccard系数

$JC=\frac{a}{a+b+c}$

2.2.2 FMI

$FMI=\sqrt{\frac{a}{a+b}\times \frac{a}{a+c}}$

2.2.3 RI

$RI=\frac{2(a+d)}{m(m-1)}$

上述三种指数可以表示在 $C,C^*$ 均划分为相同簇的样本对的数量的总量占比。
取值范围为 $[0,1]$ ，值越大越好。值越大表示聚类越贴合实际情况，划分正确率越高。

2.2.4 Acc （Cluster Accuracy）聚类精度

$Acc=\frac{\sum_{i=1}^{n}\delta (\lambda_i^*,map(\lambda_i))}{n}$

其中： $\delta$ 表示指示函数，定义如下：

$\delta(x,y)=\left\{\begin{matrix} 1\,\,\,\, if \, x==y &\\ 0\,\,\, otherwise& \end{matrix}\right.$

而式中的map则表示最佳类标的重现分配，以确保统计的正确。一般的该最佳重分配可以通过匈牙利算法(Kuhn-Munkres or Hungarian Algorithm)实现，从而在多项式时间内求解该任务（标签）分配问题。

简单来说，就是此时是希望把这个无监督的聚类效果评估问题转化为一个有监督的分类效果评估问题；由于聚类的结果具有“轮换不变性”

e.g. 一个聚类结果{0,1,2,0,2,2,1}, 我可以对每一个簇做映射，例如把0映射到1,1映射到2,2映射到0，因此上面这个聚类结果也等价于：{1,2,0,1,0,0,2}，其他映射也同理；

上面的map函数就是用来寻找一个最好的映射，该映射和ground truth计算出来的准确率（贴合度）最高。

2.2.5 Purity（纯度）

$Purity(C,C^*)=\frac{1}{n}\sum_{i=1}^k \max_j\left | C_i\cap C_j^* \right |$

i.e. 对于每一个簇 $C_i$ ，在ground truth中找一个与其“最相似”（交最大）的簇 $C_j^*$ ，计算 $\left | C_i\cap C_j^* \right |$ ,统计k个簇的这个和值,取平均。
Purity $\in [0,1]$ ，越接近1表示聚类结果越好
但是该值无法用于权衡聚类质量和簇个数之间的关系。

2.2.6 NMI（Normalized Mutual Information）归一化互信息

$NMI(C,C^*)=\frac{I(C;C^*)}{(H(C)+H(C^*))/2}$

其中，I表示互信息（Mutual Information）,H为熵

$I(C;C^*)=\sum_k \sum_j P(C_k\cap C_j^*)log \frac{P(C_k\cap C_j^*)}{P(C_k) P(C_j^*))}=\sum_k \sum_j \frac{\left | C_k \cap C_j^* \right |}{n}log \frac{n*\left | C_k \cap C_j^* \right |}{\left | C_k \right |\left | C_j^* \right |}$