一、层次聚类
层次聚类是聚类算法的一种,通过计算不同类别数据点间的相似度来创建一棵有层次的嵌套聚类树。在聚类树中,不同类别的原始数据点是树的最低层,树的顶层是一个聚类的根节点。
常见聚类树有自下而上合并和自上而下分裂两种方法
层次聚类流程:
自底向上的合并算法:
二、K-MEANS算法
基本概念:
工作流程:
优势:
简单、快速、适合常规数据集
劣势:
K值难确定
复杂度与样本呈线性关系
很难发现任意形状的簇
三、DBSCAN算法
- 密度相连:若从某核心点p出发,点q和点k都是密度可达的,则称点q和点k是密度相连的。
- 边界点:属于某一个类的非核心点,不能发展下线了
- 直接密度可达:若某点p在点q的r邻域内,且q是核心点测p-q直接密度可达
- 噪声点:不属于任何一个类簇的点,从任何一个核心点出发都是密度不可达的