文章目录
如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~
0. 前言
无监督学习意味着样本的标记信息是未知的,目标是揭示数据的内在规律。
聚类试图将数据集划分为不同的子集,称为“簇”。
1. 性能度量
聚类应达到簇内相似度高,簇间相似度低。
1.1. 外部指标
外部指标意味着将聚类结果与某个参考模型比较。
给出数据集 D D D,聚类结果簇划分 C C C,参考模型簇划分 C ∗ C^* C∗,以及对应簇标记 λ , λ ∗ \lambda,\ \lambda^* λ, λ∗,定义:
a = ∣ S S ∣ , S S = { ( x i , x j ) ∣ λ i = λ j , λ i ∗ = λ j ∗ , i < j } b = ∣ S D ∣ , S D = { ( x i , x j ) ∣ λ i = λ j , λ i ∗ ≠ λ j ∗ , i < j } c = ∣ D S ∣ , D S = { ( x i , x j ) ∣ λ i ≠ λ j , λ i ∗ = λ j ∗ , i < j } d = ∣ D D ∣ , D D = { ( x i , x j ) ∣ λ i ≠ λ j , λ i ∗ ≠ λ j ∗ , i < j } a=|SS|,\ \ SS=\{(x_i,x_j)\mid \lambda_i=\lambda_j,\lambda_i^*=\lambda_j^*,i<j\}\\ b=|SD|,\ \ SD=\{(x_i,x_j)\mid \lambda_i=\lambda_j,\lambda_i^*\neq\lambda_j^*,i<j\}\\ c=|DS|,\ \ DS=\{(x_i,x_j)\mid \lambda_i\neq\lambda_j,\lambda_i^*=\lambda_j^*,i<j\}\\ d=|DD|,\ \ DD=\{(x_i,x_j)\mid \lambda_i\neq\lambda_j,\lambda_i^*\neq\lambda_j^*,i<j\} a=∣SS∣, SS={
(xi,xj)∣λi=λj,λi∗=λj∗,i<j}b=∣SD∣, SD={
(xi,xj)∣λi=λj,λi∗̸=λj∗,i<j}c=∣DS∣, DS={
(xi,xj)∣λi̸=λj,λi∗=λj∗,i<j}d=∣DD∣, DD={
(xi,xj)∣λi̸=λj,λi∗̸=λ