人工智能/机器学习基础知识——聚类（性能度量 & 距离计算）

最新推荐文章于 2024-05-16 22:32:24 发布

XaiverZ

最新推荐文章于 2024-05-16 22:32:24 发布

阅读量802

点赞数 14

分类专栏：人工智能/机器学习基础知识文章标签：机器学习人工智能聚类

本文链接：https://blog.csdn.net/windgrin_/article/details/137689661

版权

人工智能/机器学习基础知识专栏收录该内容

31 篇文章 0 订阅

订阅专栏

聚类

Clustering

性能度量

Target：聚类结果的“簇内相似度”（Intra-Cluster Similarity）高且“簇间相似度”（Inter-Cluster Similarity）低

外部指标（External Index）

将聚类结果与某个“参考模型”（Reference Model）比较

$\begin{array}{ll} a=|S S|, & \left.S S=\left\{\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right) \mid \lambda_{i}=\lambda_{j}, \lambda_{i}^{*}=\lambda_{j}^{*}, i<j\right)\right\} \\ b=|S D|, & \left.S D=\left\{\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right) \mid \lambda_{i}=\lambda_{j}, \lambda_{i}^{*} \neq \lambda_{j}^{*}, i<j\right)\right\} \\ c=|D S|, & \left.D S=\left\{\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right) \mid \lambda_{i} \neq \lambda_{j}, \lambda_{i}^{*}=\lambda_{j}^{*}, i<j\right)\right\} \\ d=|D D|, & \left.D D=\left\{\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right) \mid \lambda_{i} \neq \lambda_{j}, \lambda_{i}^{*} \neq \lambda_{j}^{*}, i<j\right)\right\} \end{array}$
$*$ 表示参考模型，下述外部指标值越大越好
- Jaccard系数
  
  Jaccard Coefficient，JC
  
  $\frac{a}{a+b+c}$
- FM指数
  
  Fowlkes and Mallows Index，FMI
  
  $\sqrt{\frac{a}{a+b}·\frac{a}{a+c}}$
- Rand指数
  
  Rand Index，RI
  
  $\frac{2(a+d)}{m(m-1)}$
内部指标（Internal Index）

直接考察聚类结果而不利用任何参考模型

$\begin{aligned} &\operatorname{avg}(C)=\frac{2}{|C|(|C|-1)} \sum_{1 \leqslant i<j \leqslant|C|} \operatorname{dist}\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right) \\ &\operatorname{diam}(C)=\max _{1 \leqslant i<j \leqslant|C|} \operatorname{dist}\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right) \\ &d_{\min }\left(C_{i}, C_{j}\right)=\min _{\boldsymbol{x}_{i} \in C_{i}, \boldsymbol{x}_{j} \in C_{j}} \operatorname{dist}\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right) \\ &d_{\mathrm{cen}}\left(C_{i}, C_{j}\right)=\operatorname{dist}\left(\boldsymbol{\mu}_{i}, \boldsymbol{\mu}_{j}\right) \end{aligned}$
$a vg (C)$ 表示簇C内样本间的平均距离， $d iam (C)$ 表示簇C内样本间的最远距离， $d_{min}(C_i, C_j)$ 两簇最近样本间的距离， $d_{cen}(C_i, C_j)$ 两簇中心点的距离
- DB指数
  
  Davies-Bouldin Index，DBI
  
  $\mathrm{DBI}=\frac{1}{k} \sum_{i=1}^{k} \max _{j \neq i}\left(\frac{\operatorname{avg}\left(C_{i}\right)+\operatorname{avg}\left(C_{j}\right)}{d_{\operatorname{cen}}\left(\boldsymbol{\mu}_{i}, \boldsymbol{\mu}_{j}\right)}\right)$
  越小越好
- Dunn指数
  
  Dunn Index，DI
  
  $\mathrm{DI}=\min _{1 \leqslant i \leqslant k}\left\{\min _{j \neq i}\left(\frac{d_{\min }\left(C_{i}, C_{j}\right)}{\max _{1 \leqslant l \leqslant k} \operatorname{diam}\left(C_{l}\right)}\right)\right\}$
  越大越好

距离计算

dist(·,·)

非负性、同一性、对称性、直递性

闵可夫斯基距离

Minkowski Distance

适用于有序属性（Ordinal Attribute）

$t_{m k}\left(x_{i}, x_{j}\right)=\left(\sum_{u=1}^{n}\left|x_{i u}-x_{j u}\right|^{p}\right)^{\frac{1}{2}}, p \geq 1$
即 $L_P$ 范数
VDM

Value Difference Metric

适用于无序属性（Non-ordinal Attribute）

$M_{p}(a, b)=\sum_{i=1}^{k} \mid \frac{m_{u, a, i}}{m_{u, a}}-\frac{m_{u, b, i}}{\left.m_{u, b}\right|^{p}}$
$m_{u,a}$ 表示在属性u上取值为a的样本数， $m_{u,a,i}$ 表示在第i个样本簇中在属性u上取值为a的样本数， $k$ 为样本簇数
可将上述两种距离度量结合起来处理混合属性，假定有 $n_c$ 个有序属性， $n-n_c$ 个无序属性，则

$\operatorname{Minkov} D M_{p}\left(x_{i}, x_{j}\right)=\left(\sum_{u=1}^{n_{c}}\left|x_{i u}-x_{j u}\right|^{p}+\sum_{u=n_{c}+1}^{n} V D M_{p}\left(x_{i u}, x_{j u}\right)\right)^{\frac{1}{p}}$
当样本空间中不同属性的重要性不同时，可使用“加权距离”，如

$dist_{wmk}(x_i, x_j) = (w_1 · |x_{i1} - x_{j1}|^p + ... + w_n · |w_{in} - w_{jn}|^p)^{\frac{1}{p}}$
其中权重 $w_i >= 0$ ，表征不同属性的重要性
非度量距离

Non-metric Distance
- 可通过距离度量学习（Distance Metric Learning）来实现