机器学习 基于密度的聚类

一.概述
1.概念:

"基于密度的聚类"(Density-based Clustering)认为:在整个样本空间中,各目标簇均由一群稠密的样本点组成,而这些稠密样本点被低密度
区域(即噪声)分割从而形成不同的簇;而算法的目的就是要过滤低密度区域并发现稠密样本点.具体来说,如果算法发现某个区域的密度超过了某个
阈值,就将该区域合并到相邻的簇中

2.优缺点
(1)优点:

①可发现任意形状的簇
②对噪声和初始值不敏感
③以数据集在空间中的稠密度为依据进行聚类,无需预先指定簇的数量,因此特别适合对未知数据集进行聚类
④聚类结果通常不依赖于遍历顺序

(2)缺点:

①时间复杂度较大,需建立空间索引来降低计算量
②结果受阈值影响较大,阈值过大容易分割同一聚类,阈值过小则容易合并不同聚类
③固定阈值对稀疏程度不同的数据不具有适应性,容易导致密度小的区域的同一聚类被分割,而密度大的区域的不同聚类被合并
④调参过程较复杂,密度阈值难以确定
⑤对高维数据,容易发生维度灾难
⑥不适用于整体密度基本相同的情况

二.常见算法
1.DBSCAN
(1)概述:

"具有噪声的基于密度的空间聚类"(Density-Based Spatial Clustering of Application with Noise;DBSCAN)将簇定义为高密度数
据点构成的最大集合.其核心思想是先发现数据点密度较高的区域,然后把相近的高密度区域全部连接到一起,从而生成各个簇

(2)一些概念:

"ε-邻域"(ε-Neighbourhood):以指定样本x为中心,ε为半径而形成的区域,记为N(ε;x)
在DBSCAN算法中,数据点被分为3:"核心点"(Core Point):对指定正整数m,如果指定样本的ε-邻域中包含的样本数不少于m,就称其为核心点
②"边界点"(Border Point):对指定正整数m,如果指定样本的ε-邻域中包含的样本数少于m,但其包含在某核心点的ε邻域内,就称其为边界点
③"噪声点"(Noise):除核心点和边界点外的其他样本(不包含在任何簇中的样本)
在DBSCAN算法中,还定义了如下一些概念:"直接密度可达"(Directly Density-Reachable):如果满足p∈N(ε;q)|N(ε;q)|≥mp,则称样本p从样本q对参数{
   ε,mp}直接密度可达(即
p属于核心点q的ε-邻域)"密度可达"(Density-Reachable):如果存在样本p1=q,p2...pn=p,使得p(i+1)从pi对参数{
   ε,mp}直接密度可达(1≤i≤n−1),则称p从q对
参数{
   ε,mp}密度可达
③"密度相连"(Density-Connected):如果存在样本o,p,q,使得p,q均从o对参数{
   ε,mp}密度可达,则称p,q对参数{
   ε,mp}是密度相连的
最后定义簇:"簇"(Cluster):最大的又密度连接的样本构成的集合

在这里插入图片描述
(3)步骤:

①如果样本x的ε-邻域这包含至少m个样本,则创建1个以x作为核心点的新簇
②将
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
聚类算法是一种将数据集划分为不同的离散类别的机器学习方法。在硬聚类中,每个数据点只被分配到一个独立的类别中,没有模糊的成员关系。常见的硬聚类算法有K均值聚类、层次聚类DBSCAN。 1. K均值聚类:K均值聚类是最常用的硬聚类算法之一。它将数据集划分为K个独立的类别,其中K是用户事先指定的。算法首先随机选择K个中心点,然后迭代地将每个数据点分配到离其最近的中心点所对应的类别中,然后更新中心点位置。重复这个过程直到收敛,直到中心点不再改变为止。 2. 层次聚类:层次聚类是一种自底向上或自顶向下的聚类方法,它通过计算数据点之间的相似度或距离来构建一个层次化的聚类树。在自底向上的方法中,每个数据点开始时被认为是一个单独的类别,然后迭代地合并最相似的类别,直到达到预定的停止条件。而在自顶向下的方法中,整个数据集被认为是一个类别,然后递归地将其划分为更小的子类别,直到达到停止条件。 3. DBSCAN:DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种基于密度聚类算法。它通过定义一个数据点的邻域半径和最小邻域内的数据点数量来划分类别。DBSCAN将高密度区域视为类别,可以自动识别任意形状的聚类。该算法还可以标记噪声点,即不属于任何类别的数据点。 这些硬聚类算法在不同的应用场景中都有广泛的应用,可以帮助我们发现数据集中的内在结构和模式。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值