K-Means算法和DBSCAN算法

心️升明月

已于 2022-02-10 15:01:33 修改

阅读量3.4k

点赞数 4

分类专栏：机器学习文章标签： K-Means算法 DBSCAN算法聚类

于 2022-02-09 18:09:14 首次发布

本文链接：https://blog.csdn.net/weixin_43821559/article/details/122845540

版权

机器学习专栏收录该内容

24 篇文章 10 订阅

订阅专栏

文章目录

一、聚类
二、K-Means算法
三、DBSCAN算法
四、可视化展示
- 1、K-Means算法
- 2、DBSCAN算法
五、参考文献

一、聚类

聚类是根据在数据中发现的描述对象及其关系的信息，将数据对象分簇。其目的是使簇内的对象相互之间是相似的(相关的)，而不同簇中的对象是不同的(不相关的)。簇内相似性越大，簇间差距越大，说明聚类效果越好。
聚类是一种无监督学习的方法，是许多领域中常用的机器学习技术。其难点在于如何评估和调参。

二、K-Means算法

1、基本概念

要得到簇的个数，需要指定 $K$ 值
质心：均值，即向量各维取平均即可
距离的度量：常用欧几里得距离和余弦相似度(先标准化)
优化目标： $\min\displaystyle\sum_{i=1}^K\displaystyle\sum_{x\in C_i}dist(c_i,x)^2$

2、工作流程

（1）数据预处理：主要是标准化、异常点过滤。
（2）设置参数 $K$ ，其含义是将数据集聚合成 $K$ 类。
（3）随机选取 $K$ 个质心，记为 $\mu_1^{(0)},\mu_2^{(0)},\cdots,\mu_K^{(0)}$ 。
（4）定义损失函数： $J(c,\mu)=\min\sum_{i=1}^M||x_i-\mu_{c_i}||^2\tag{1}$ （5）重复下述过程，直到 $J$ 收敛：
（5.1）对于每一个样本 $x_i$ ，将其分配到距离最近的质心，即： $x_i\in\argmin_k||x_i-\mu_k^{(t)}||\tag{2}$ （5.2）对于每一个类质心 $\mu_{k}$ ，重新计算该类的质心，即： $\mu_k^{(t+1)}=\frac{1}{|C_k|}\sum_{x\in C_k}x\tag{3}$

3、优缺点

优点：简单快速，适合常规数据集
缺点：
① $K$ 值难确定；② 受初始值影响较大；③ 复杂度与样本规模呈线性关系；④ 很难发现任意形状的簇。

三、DBSCAN算法

1、基本概念

DBSCAN全名为Density-Based Spatial Clustering of Applications with Noise。

核心对象：若某个点的密度达到算法设定的阈值则其为核心点(即 $r$ 邻域内点的数量不小于 $m i n P t s$ )
$\varepsilon$ -邻域的距离阈值：设定的半径 $r$
直接密度可达：若某点 $p$ 在点 $q$ 的 $r$ 邻域内，且 $q$ 是核心点，则 $p - q$ 直接密度可达
密度可达：若有一个点的序列 $q_0$ 、 $q_1$ 、 $\cdots$ 、 $q_k$ ，对任意 $q_i-q_{i-1}$ 是直接密度可达的，则称从 $q_0$ 到 $q_k$ 密度可达，这实际上是直接密度可达的“传播”
密度相连：若从某核心点 $p$ 出发，点 $q$ 和点 $k$ 都是密度可达的，则称点 $q$ 和点 $k$ 是密度相连的
边界点：属于某一个类的非核心点，不能往下发展了
噪声点：不属于任何一个类簇的点，从任何一个核心点出发都是密度不可达的
如图1所示，点A为核心对象，B和C为边界点，N是离群点。

图1 DBSCAN算法划分点集示意图

2、工作流程

准备数据集(参数D)，输入指定半径(参数 $r$ )和密度阈值( $M i n P t s$ )。其伪代码如下所示：

标记所有对象为unvisited;
Do
随机选择一个unvisited对象p;
标记p为visited;
If p的r-邻域至少有MinPts个对象
	创建一个新簇C，并把p添加到C;
	令N为p的r-邻域中的对象集合;
	For N中每一个点p'
		If p'是unvisited;
			标记p'为visited;
			If p'的r-邻域至少有MinPts个对象
				把这些对象添加到N中;
			If p'还不是任何簇的成员
				把p'添加到C;
	End for;
	输出C;
Else
	标记p为噪声点;
Until 没有标记为unvisited的对象;

3、参数选择

半径 $r$ ，可以根据 $K$ 距离来设定，找突变点。
$K$ 距离：给定数据集 $P=\{p(i); i=0,1,\cdots,n\}$ ，计算点 $p (i)$ 到集合 $D$ 的子集 $S$ 中所有点之间的距离，距离按照从小到大的顺序排序， $d (k)$ 就被称为 $K$ 距离。
$M i n P t s$ ： $K$ 距离中 $K$ 的值，一般取的小一些，多次尝试。

4、优缺点

优点：
① 不需要指定簇个数；② 可以发现任意形状的簇；③ 擅长找到离群点(检测任务)；④ 只需要设置两个参数(半径 $r$ 和距离阈值 $M i n P t s$ )。
缺点：
① 高维数据聚类有些困难(可以做降维)；② 参数难以选择(参数对结果的影响非常大)；③ Sklearn中效率很慢(数据削减策略)。

四、可视化展示

1、K-Means算法

在这里插入图片描述

2、DBSCAN算法

在这里插入图片描述

五、参考文献

[1] 唐宇迪. 跟着迪哥学Python数据分析与机器学习实战[M]. 北京: 人民邮电出版社, 2019: 346-363.

心️升明月

关注

4
点赞
踩
18

收藏

觉得还不错? 一键收藏
打赏
1
评论
K-Means算法和DBSCAN算法

文章目录一、聚类二、K-Means算法1、基本概念2、工作流程3、优缺点二、DBSCAN算法1、基本概念2、工作流程3、参数选择4、优缺点三、可视化展示1、K-Means算法2、DBSCAN算法四、参考文献一、聚类聚类是根据在数据中发现的描述对象及其关系的信息，将数据对象分簇。其目的是使簇内的对象相互之间是相似的(相关的)，而不同簇中的对象是不同的(不相关的)。簇内相似性越大，簇间差距越大，说明聚类效果越好。聚类是一种无监督学习的方法，是许多领域中常用的机器学习技术。其难点在于如何评估和调参。二、K
复制链接

扫一扫