Sklearn实现DBSCAN聚类

最新推荐文章于 2025-05-14 16:26:08 发布

数据科学家修炼之道

最新推荐文章于 2025-05-14 16:26:08 发布

阅读量1.6k

点赞数

CC 4.0 BY-SA版权

分类专栏： AI # Sklearn笔记文章标签：机器学习聚类 sklearn

本文为博主原创文章，欢迎转载，转载请注明出处。

本文链接：https://blog.csdn.net/xiligey1/article/details/112584451

AI 同时被 2 个专栏收录

130 篇文章

订阅专栏

Sklearn笔记

55 篇文章

订阅专栏

本文介绍了DBSCAN算法，该算法将簇视为被低密度区域分隔的高密度区域，发现的簇可为任意形状。阐述了核心样本、簇和异常值的定义，还说明了参数min_samples和eps的作用及取值影响，指出eps取值需根据具体情况确定，一些文献讨论了启发式参数选择方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

The DBSCAN 算法将簇视为被低密度区域分隔的高密度区域。由于这个相当普遍的观点， DBSCAN发现的簇可以是任何形状的，与假设簇是凸的 K-means 相反。 DBSCAN 的核心概念是 core samples, 是指位于高密度区域的样本。因此一个簇是一组核心样本，每个核心样本彼此靠近（通过某个距离度量测量）和一组接近核心样本的非核心样本（但本身不是核心样本）。算法中的两个参数, min_samples 和 eps,正式的定义了我们所说的稠密（dense）。较高的 min_samples 或者较低的 eps 都表示形成簇所需的较高密度。

更正式的,我们定义核心样本是指数据集中的一个样本的 eps 距离范围内，存在 min_samples 个其他样本，这些样本被定为为核心样本的邻居( neighbors) 。这告诉我们，核心样本在向量空间的稠密区域。一个簇是一个核心样本的集合，可以通过递归来构建，选取一个核心样本，查找它所有的邻居样本中的核心样本，然后查找新获取的核心样本的邻居样本中的核心样本，递归这个过程。簇中还具有一组非核心样本，它们是簇中核心样本的邻居的样本，但本身并不是核心样本。显然，这些样本位于簇的边缘。

根据定义，任何核心样本都是簇的一部分，任何不是核心样本并且和任意一个核心样本距离都大于eps 的样本将被视为异常值。

当参数min_samples 主要表示算法对噪声的容忍度(当处理大型噪声数据集时, 需要考虑增加该参数的值), 针对具体地数据集和距离函数，参数eps 如何进行合适地取值是非常关键，这通常不能使用默认值。参数eps控制了点地领域范围。如果取值太小,大部分地数据并不会被聚类(被标注为 -1 代表噪声); 如果取值太大，可能会导致相近的多个簇被合并成一个,甚至整个数据集都被分配到一个簇。一些启发式（heuristics）参数选择方法已经在一些文献上讨论过了，例如，在最近邻距离图种，基于Knee的参数选择方式（在下面引用的资料里已讨论过了）.

在下图中，颜色表示簇成员属性，大圆圈表示算法发现的核心样本。较小的圈子表示仍然是簇的一部分的非核心样本。此外，异常值由下面的黑点表示。