聚类分析小结

最新推荐文章于 2024-05-08 02:31:35 发布

曾经我很刚

最新推荐文章于 2024-05-08 02:31:35 发布

阅读量3.8k

点赞数

分类专栏：机器学习理论基础

本文链接：https://blog.csdn.net/weixin_44527237/article/details/110521009

版权

机器学习理论基础专栏收录该内容

1 篇文章 0 订阅

订阅专栏

文章目录

- 聚类分析

聚类分析

1.基本概念

聚类分析是一种典型的无监督学习，用于对未知类别的样本进行划分，将它们按照一定的规则划分成若干个类族，把相似（距高相近）的样本聚在同一个类簇中，把不相似的样本划分为不同类簇，从而揭示样本之间的内在的性质以及相互之间的联系规律。

2.聚类分析概念

将未标记的样本自动划分成多个类簇

聚类方法分类

基于划分的聚类、基于层次的聚类、基于密度的聚类、基于网格的聚类、基于模型的聚类。

良好聚类算法的特征

良好的伸缩性

处理不同类型数据的能力

处理噪声数据的能力

对样本顺序的不敏感性

约束条件下的表现

易解释性和易用性

3.聚类分析的度量指标

用于对聚类结果进行评判，分为外部指标和内部指标

外部指标

指用事先指定的聚类模型作为参考来评判聚类结果的好坏

术语解释

聚类得到的簇可以用聚类中心、簇大小、簇密度和簇描述等来表示。

聚类中心是一个簇中所有样本点的均值。

簇大小表示簇中所含样本的数量。

簇密度表示簇中样本点的紧密程度。

簇描述是簇中样本的业务特征。

聚类的目标是得到较高的簇内相似度和较低的簇间相似度，使得簇间的距离尽可能大，簇内样本与簇中心的距离尽可能小。

内部指标

指不借助任何外部参考，只用参与聚类的样本评判聚类结果好坏

根据空间中点的距离度量，有以下聚类性能度量内部指标

紧密度（Compactness）

指每个簇中的样本点到聚类中心的平均距离。

对于有n个样本点的簇C来说，该簇的紧密度为：
$CP_c = \frac 1n\sum_{i=1}^n||x_i-w_c||$
其中w_c为簇C的聚类中心。

对于聚类结果，需要使用所有簇紧密度的平均值来衡量聚类结果的好坏，假设总共有k个簇：
$\frac1k\sum_{i=1}^kCP_i$
紧密度的值越小，表示簇内样本点的距离越近，即簇内样本的相似度越高。

分隔度（Seperation）

指各簇的聚类中心c_i、c_j两两之间的平均距离，计算公式为：
$\frac2 {k^2-k}\sum_{i=1}^k\sum_{j=i+1}^k||c_i-c_j||$
分隔度的值越大，表示个聚类中心相互之间的距离越远，即簇间相似度越低。

戴维森堡丁指数（Davies-Bouldin Index,DBI）

衡量任意两个簇的簇内距离之和与簇间距离之比，求最大值。

DBI值越小，表示簇内样本之间的距离越小，同时簇间距离越大，即簇内相似度高，簇间相似度低，说明聚类结果好。

邓恩指数（Dunn Validity Index,DVI)

计算任意两个簇的样本点的最短距离与任意簇中样本点的最大距离之商。

DVI值越大，表示簇间样本距离越远，簇内样本距离越近，即簇间相似度低，簇内相似度高，聚类结果好。

4.机器学习中常用的距离

对于两个n维的样本，
$(x_{1},x_{2},\ldots,x_{n})^T$

$(y_{1},y_{2},\ldots,y_{n})^T$

欧氏距离(Euclidean Distance)

欧式距离是计算欧式空间中两点之间的距离，是最容易理解的距离计算方法。

假设X和Y都是一个n维的向量，则欧氏距离：
$D(X,Y)=\sqrt {\sum_{i=1}^n(x_i-y_i)^2}$

曼哈顿距离(Manhattan Distance)

曼哈顿距离也称城市街区距离，欧氏距离表明了空间中两点间的直线距离。但是在城市中，两点之间的实际距离是要沿着道路行驶的距离，而不能计算直接穿过大楼的直线距离，曼哈顿距离就是用于度量这样的实际行驶距离。
$\sum_{i=1}^n|x_i-y_i|$

切比雪夫距离(Chebyshev distance)

切比雪夫距离是向量空间中的一种度量，将空间坐标中两个点的距离定义为其各坐标数值差绝对值的最大值。切比雪夫距离在国际象棋棋盘中表示国王从一个格子移动到此外一个格子所走的步数。
$\lim_{p \to \infty}(\sum_{i=1}^{n}|x_i-y_i|^p)^{\frac 1p}$

闵可夫斯基距离(Minkowski Distance)

闵可夫斯基距离是欧式空间的一种测度，是一组距离的定义，被看作是欧式距离和曼哈顿距离的一种推广。
$(\sum_{i=1}^n|x_i-y_i|^p)^{\frac 1p}$
这里的p是一个变量，当p=1时得到了曼哈顿距离；当p=2时得到了欧氏距离；当p→∞时得到切比雪夫距离。

5.基于划分的聚类

基于划分的方法是简单、常用的一种聚类方法。通过将对象划分为互斥的簇进行聚类，每个对象属于且仅属于一个簇。划分结果旨在使簇之间的相似性低，簇内部的相似度高

k均值算法

计算样本点与类簇质心的距离，与类簇质心相近的样本点划分为同一类簇。k-均值通过样本间的距离来衡量它们之间的相似度，两个样本距离越远，则相似度越低，否则相似度越高。

k-means算法聚类步骤：

首先选取k个类簇（k为超参数，需要手动设置）的质心，通常是随机选取。
对剩余的每个样本点，计算它们到各个质心的欧式距离，并将其归入到相互间距离最小的质心所在的簇。计算各个新簇的质心（均值）。
在所有样本点都划分完毕后，根据划分情况重新计算各个簇的质心所在位置，然后迭代计算各个样本点到各簇质心的距离，对所有样本点进行重新划分。
重复（2）和（3），直到迭代计算后，所有样本点的划分情况保持不变，此时说明k-均值算法已经得到了最优解，将运行结果返回。
随机初始化质心位置→计算欧氏距离并重新划分→计算质心位置→计算欧氏距离并重新划分……

k-means算法对离群点和噪声点非常敏感，少量离群点和噪声点可能对算法求平均值产生极大影响。

k-medoids算法

k-prototype算法

6.基于密度聚类

DBSCAN算法

OPTICS算法

DENCLUE算法

7.基于模型的聚类

模糊聚类

Kohonen神经网络聚类

平均值产生极大影响。