一、实验介绍
1.1 简单介绍
简单介绍K-means、层次聚类,DBSCAN 和密度峰值聚类(DPC)算法的原理
1.2 鸢尾花数据实验
- 对鸢尾花数据集进行探索性分析与预处理
- 选取兰德系数和轮廓系数作为评价指标,对四种算法在该数据集上的性能进行分析
1.3 算法参数影响探究
- 介绍三种算法中的几个主要参数(K-Means 中的 k 参数、DBSCAN 中的 eps 与 min_samples 参数、DPC 中的t0参数–t0 的含义为圆中样本个数占数据集总样本数的比例)
- 以鸢尾花数据为例,选取合适的评价指标,探究 K-Means 算法中 k 参数对算法的性能影响,并尝试找出确定 k 参数的方法
- 以模拟数据为例(如:高斯分布数据集,Spiral 数据集,Circle数据集),选取合适的评价指标,探究另外三个参数(eps与min_samples、t0)对各自算法的性能影响
二、项目地址
https://mbd.pub/o/bread/ZJaZk5ps
三、算法结果展示
- 绘制原始分布图