sklearn.DBSCAN解析

最新推荐文章于 2024-07-02 13:59:33 发布

情感大师何以琛

最新推荐文章于 2024-07-02 13:59:33 发布

阅读量6.9k

点赞数 6

分类专栏：数据挖掘文章标签：数据挖掘 python 聚类算法聚类

本文链接：https://blog.csdn.net/youhebuke12138/article/details/110132512

版权

本文介绍了如何使用scikit-learn库中的DBSCAN聚类算法，通过Iris鸢尾花数据集和随机生成的月牙形数据进行实例演示。DBSCAN在处理非凸数据集时展现出优势，其主要函数包括`DBSCAN`类的构造函数和`fit`、`fit_predict`方法。文章引用了多个相关资源以深入理解DBSCAN。

摘要由CSDN通过智能技术生成

文章目录

sklearn版本
sklearn.DBSCAN使用实例
实例1 Iris,鸢尾花数据集(UC Irvine Machine Learning Repository)
实例2 RandomData,随机生成的月牙形数据(非凸数据集)
sklearn.DBSCAN解析
DBSCAN类
构造函数__init__()，调用格式iris_dbscan = DBSCAN(eps = 0.3, min_samples = 5)
iris_dbscan.fit(X)
dbscan_inner(is_core, neighborhoods, labels)
iris_dbscan.fit_predict(X)
参考

sklearn版本

scikit-learn 0.23.2

sklearn.DBSCAN使用实例

实例1 Iris,鸢尾花数据集(UC Irvine Machine Learning Repository)

Iris可以从sklearn包内部导入，常常用作分类的训练数据集。这里为了方便展示聚类效果(二维在平面图中效果明显)，选取Iris的前两个维度作为聚类依据。上一篇文章(sklearn.KMeans解析)中，我们已经用KMeans做过这个实验，这里用DBSCAN来做。代码参见Iris_DBSCAN.py。左图为全部数据点，右图为DBSCAN聚类(eps = 0.3, min_samples = 5)结果，不同颜色代表不同簇。参数是经过调整的，以接近KMeans的结果，因为个人认为这个数据集聚类还是KMeans效果略好。
实例2 RandomData,随机生成的月牙形数据(非凸数据集)

这个例子体现出了DBSCAN在处理非凸数据集时的优势。代码参见RandomData_DBSCAN.py。最左图为随机生成的月牙形数据点。剩余两张图分别为KMeans聚类(n_cluseters=2)结果和DBSCAN聚类(eps = 0.1, min_samples = 10)结果。

sklearn.DBSCAN解析

本节分析sklearn.DBSCAN中的主要函数。

DBSCAN类

导入方法：from sklearn.cluster import DBSCAN
描述： 构造一个DBSCAN聚类，其函数用于完成聚类。待初始化参数参见构造函数。
待计算参数(计算完成后，聚类完成)：

self.core_samples_indices		#DBSCAN聚类核心对象在训练数据中的索引
self.components_				#DBSCAN聚类核心对象
self.labels_					#训练数据簇标签(训练后，每条数据所属簇)

构造函数__init__()，调用格式iris_dbscan = DBSCAN(eps = 0.3, min_samples = 5)

描述： DBSCAN类构造函数。调用格式中传入两个参数值，其他值取默认。
主要代码(__init__)：
```
self.eps = eps						#邻域半径设为0.3
self
```