【数据挖掘笔记】聚类分析

YWP_2016

已于 2022-06-29 06:46:02 修改

阅读量1.6k

点赞数 6

分类专栏： ML 文章标签：数据挖掘聚类机器学习

于 2021-11-16 11:54:00 首次发布

本文链接：https://blog.csdn.net/ywp_2016/article/details/121316215

版权

13 篇文章 4 订阅

订阅专栏

零碎知识

层次聚类：允许簇有子簇

划分聚类：得到不重叠子簇

互斥聚类：各个簇互斥

重叠聚类：如既是学生又是员工，同属于多个簇

模糊聚类：每个对象用0和1之间的隶属权值属于每个簇【即簇被视为模糊集——模糊集中，每个对象以0和1之间的权值属于任一集合】

完全聚类：每个对象指派到一个簇

部分聚类：某些对象可以不属于明确定义的类

K均值是非常一般的聚类算法，可用于许多类型的数据，如文档和时间序列。
时空复杂性均适度：时间需求：基本与数据点的个数线性相关，需要O(I×K×m×n)，I为收敛所需迭代次数，m为点数，n为属性数。空间需求：只需存放数据点与质心，需要O((m+K)n)。
优缺点

优点	缺点
可用于各种数据类型	并不适合所有数据类型（如，无法处理非球形簇、不同尺寸和不同密度的簇）
不太受初始化问题的影响	仅限于具有中心（质心）概念的数据
	不适合包含离群点的数据——但可提前检测离群点并删除

层次方法：凝聚层次聚类

DBSCAN(Density-Based Spatial Clustering of Applications with Noise，具有噪声的基于密度的聚类方法）：与划分和层次聚类方法不同，它将簇定义为密度相连的点的最大集合，能够把具有足够高密度的区域划分为簇，并可在噪声的空间数据库中发现任意形状的聚类。
产生划分聚类（得到不重叠子簇），簇的个数由算法自动确定。低密度区域中的点被视为噪声而忽略，因此DBSCAN不产生完全聚类（完全聚类：每个对象指派到一个簇）。

优点	缺点
相对抗噪声	当簇的密度变化太大 or 高维数据，开销较大
能够处理任意形状和大小的簇→能够发现使用K均值不能发现的许多簇

	K均值	DBSCAN
簇类型	基于原型（如质心）	基于密度
对象	一般聚类所有对象	丢弃被识别为噪声的对象，不太受噪声和离群点影响
簇形状大小	×	√（但簇密度差异很大时，两种算法性能都很差）
稀疏高维数据，如文档	√	×
重叠簇	√（能发现有重叠的簇）	×（会合并有重叠的簇）
时间复杂度	O(m)	O(m2)
每次结果	×（不同，多次运行结果不同，因为随机化初始质心）	√ （相同）
自定义簇数	自定义	自动确定，但需指定Eps（邻域半径）和MinPts（最少点数）

关注

专栏目录