K-Means聚类与DBSCAN的区别

最新推荐文章于 2025-02-14 11:09:08 发布

NieBP

最新推荐文章于 2025-02-14 11:09:08 发布

阅读量4.4k

点赞数 3

分类专栏：机器学习文章标签：聚类 kmeans 机器学习

本文链接：https://blog.csdn.net/weixin_43891708/article/details/121923414

版权

3 篇文章

订阅专栏

一家之言，仅作分享，如有不合理或需要改进的地方，欢迎各位讨论。

聚类是无监督机器学习中的一种技术，它根据数据集中数据点可用信息的相似性将数据点分组到集群中。属于同一簇的数据点在某些方面彼此相似，而属于不同簇的数据项不同。

K-Means 是一种基于距离的聚类算法，将距离比较近的数据点看作相似的点，将它们归为一类。对于给定样本集，按照样本之间的距离大小，将样本集划分为 $K$ 个簇。目标是让簇内的点尽量连接在一起，而让簇间的距离尽量大。

输入： $D$ — 数据集 $\{x_1，x_2，\cdots，x_m\}$ ;
$K$ — 聚类的簇数 $k$ ;
$N$ — 最大迭代次数；
输出： $C$ — 输出簇划分集 $\{C_1，C_2，\cdots，C_k\}$ ;

DBSCAN是一种基于密度的聚类算法，可以通过样本分布的紧密程度决定，同一类别的样本之间是紧密相连的，不同样本是是分离的。它将特征空间中足够密集的点划分为同一个簇，簇的形状可以是任意的，而且数据点中有噪声点的话，不会将这些点划分给某个簇。

输入： $D$ — 数据集 $\{x_1，x_2，\cdots，x_m\}$ ;
$\epsilon$ — 邻域半径;
$M i n P t s$ — 邻域最小数据量阈值；
输出： $C$ — 输出簇划分集 $\{C_1，C_2，\cdots，C_k\}$ ;

调参相对于传统的K-Means之类的聚类算法稍复杂，主要需要对距离阈值 $\epsilon$ ，邻域样本数阈值 $M i n P t s$ 联合调参，不同的参数组合对最后的聚类效果有较大影响。
样本集的密度不均匀、聚类间距差相差很大时，聚类质量较差，这时用 DBSCAN 算法一般不适合。
如果样本集较大时，聚类收敛时间较长，此时可以对搜索最近邻时建立的KD树或者球树进行规模限制来改进。

K-Means是基于划分的聚类，DBSCAN是基于密度的聚类。
K-Means需要指定聚类簇数 $k$ ，并且且初始聚类中心对聚类影响很大。K-Means把任何点都归到了某一个类，对异常点比较敏感。DBSCAN能剔除噪声，需要指定邻域距离阈值 $\epsilon$ 和样本个数阈值 $M i n P t s$ ，可以自动确定簇个数。
K-Means可以发现不是明显分离的簇，即便簇有重叠也可以发现，但是DBSCAN会合并有重叠的簇。
K-Means很难处理非球形的簇和不同大小的簇。DBSCAN可以处理不同大小或形状的簇，并且不太受噪声和离群点的影响。当簇具有很不相同的密度时，两种算法的性能都很差。
K-Means只能用于具有明确定义的质心（比如均值或中位数）的数据。DBSCAN要求密度定义（基于传统的欧几里得密度概念）对于数据是有意义的。
K-Means算法的时间复杂度是 $O (n)$ ，而DBSCAN的时间复杂度是 $O(n^2)$ 。