DBScan+iris数据集实现+参数调节

最新推荐文章于 2024-08-09 08:12:36 发布

OldBibi

最新推荐文章于 2024-08-09 08:12:36 发布

阅读量5.8k

点赞数 2

分类专栏：聚类文章标签： DBScan 参数调节 machine learning iris python

本文链接：https://blog.csdn.net/weixin_43909872/article/details/85342540

版权

本文记录了使用DBScan在iris数据集上进行聚类的实践过程，发现初始参数设定无法得到理想的三个类别。尝试通过参数调节方法优化，包括基于k-距离的散点图分析来确定Eps值，但仍未能达到预期效果。文章最后提到这种方法在寻找拐点方面的不明显，并表示将进一步研究。

摘要由CSDN通过智能技术生成

关于DBScan的理论就不再黏贴了，这里记录一个讲的比较详细的网站： https://www.cnblogs.com/pinard/p/6208966.html
下午尝试着用iris数据集去测试一下，但发现效果不太理想，后面又用比较简单的参数调节方法去调参数，似乎也不理想，这里把记录下来以供后面继续研究。

Load data from iris.csv

import pandas as pd
import numpy as np
import math
import operator
import matplotlib.pyplot as plt
from sklearn.cluster import DBSCAN

data = pd.read_csv("iris.csv")
data = np.mat(data)

Use sklearn.DBSCAN to do the clustering

y_pred = DBSCAN(eps=0.5, min_samples=5).fit_predict(data[:, 1:5])

Show the result

colors = 'gbycm'
y_pred_color = []
category = []
for pred in y_pred:
    if pred == -1:
        color = 'r'
    else:
        color = colors[pred]
    y_pred_color.appe