Cluster analysis :Basic Concepts and Algorithms -- Part 4 Density-based clustering(DBSCAN)

系列文章

Cluster analysis :Basic Concepts and Algorithms – Part 1 Overview
Cluster analysis :Basic Concepts and Algorithms – Part 2 K-means
Cluster analysis :Basic Concepts and Algorithms – Part 3 Hierarchical Clustering



1 前言

之前两节讲的K-means是基于原型的划分的聚类,Hierarchical Clustering是层次(嵌套)的聚类,而本本节主要学习基于密度的聚类寻找被低密度区域分离的高密度区域
在这里插入图片描述
DBSCAN是其中的一种简单有效的基于密度的聚类方法(Density-based clustering)。它采用的是基于中心的点密度:点的密度是指给定半径范围(Eps)内点的个数。因此点的密度取决于指定的半径
使用这个方法对区域中的点进行分成三类:

  • 稠密区域内部的点,即核心点(a core point)。根据点的个数是否超过给定的阀值(MinPts)来确定。
  • 稠密区域边缘上的点,即边界点(a border point)。它不是核心点,但是与核心点邻近的点
  • 稀疏区域中的点,即噪声或者背景点(a noise or background point)。它既不是核心点,又不是边界点。
    如下图中,当阀值为7时,A是核心点,B是边界点,C是噪声点。
    在这里插入图片描述
    图1-1 DBSCAN 核心点、边界点和噪声点。
    在这里插入图片描述
    图1-2 DBSCAN 核心点、边界点和噪声点。

2 DBSCAN 聚类算法

简单来说就是: 先通过核心点来确定簇,然后把边界点分配到邻近的簇中。只要确定了核心点,边界点和噪声点,任何两个距离接近(即相互距离在Eps之内)的核心点都会被分到同一个簇。

2.1 DBSCAN 算法

  1. 将所有点分类并标记为核心点、边界点或噪声点
  2. 删除噪声点
  3. 为距离在密度半径Eps之内的所有核心点之间画一条边
  4. 将每组相互连接的核心点分到一个单独的簇
  5. 再将每个边界点指派到一个与之关联的核心点所在的簇中

在这里插入图片描述

2.2 时间复杂性和空间复杂性

  • 时间复杂度:O(m x 找出Eps邻近域中的点所需的时间),m为点的个数。最坏的情况O(m^2)。通过有效的检索可以降低为O(mlogm)。

  • 空间复杂度:O(m), 只需要存储簇标号和点的标识(每个点是核心点、边界点还是噪声点的标识)

2.3 DBSCAN算法的参数

确定半径Eps和阀值MinPts的基本方法:观察点到它的第K个最近邻点(kth nearest neighbor)的距离, 记作k-dist。思路是:对于簇中的点,它们距离其第 k 个最近邻距离很近,而噪声点距离其第 k 个最近邻较远。
在这里插入图片描述
图2-1 样本数据的k-dist图

  1. 计算每个点到其第 k 个最近邻居的距离(即k-dist)并递增排序,绘制出如上图

  2. 根据图中k-dist的急剧变化(shape change)的地方,选择合适的Eps值(如图中取Eps=10,取MinPts=k)

  3. k-dist < Eps —— core points
    k-dist = Eps —— border points
    k-dist > Eps —— noise points

  4. 虽然Eps的值取决于k, 但并不随k的变化急剧变化。如果k的值太小,则少量邻近的噪声或outlier将可能被错误地标记为cluster;如果k值太大,则小簇(点数小于k的簇) 可能被标记为噪声。一般把k取值4,对于大部分二维数据集是合理的。

3 DBSCAN 的优势和局限性

3.1 优势

  • 相对比较抗噪声
  • 能够处理任意形状和大小的簇,可以发现使用K-means不能发现的许多簇。
    在这里插入图片描述

3.2 局限性

  • 如果簇的密度变化很大,DBSCAN可能会出问题。
    如下图如果Eps为9.75,则只有较高密度的三个簇被识别;如果Eps为9.92,最右边的几个簇会被分到同一个簇。
    在这里插入图片描述
  • 对于高维数据,密度的定义更加困难
  • 需要计算所有点对的邻近度,开销比较大。

本节主要对基于密度的距离DBSCAN算法进行了初步的介绍,后期会再深入的探讨其他基于密度的距离方法,以及如何解决其局限性问题。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
现代信息检索是指在当今信息社会中进行信息搜索和检索的一种方法和技术。信息检索的关键目标是根据用户的需求,在大量的信息资源中准确地找到相关信息。 信息检索的过程包含以下几个关键概念和技术: 1. 查询理解:该步骤旨在理解用户的信息需求,确定用户想要检索的内容。这可能涉及到一系列的技术,例如自然语言处理和语义分析,以便准确理解用户查询的含义和目的。 2. 信息检索模型:信息检索系统使用特定的模型来评估和排名与用户查询相关的文档或信息资源。常用的模型包括向量空间模型、布尔模型和概率模型等。这些模型根据查询项和文档的相关性计算得分,以便将最相关的文档呈现给用户。 3. 检索评估:评估系统在准确性和效率方面的性能是信息检索中的重要步骤。这涉及到针对特定任务和基准数据集进行评估实验,以了解系统的检索准确性、召回率和效率等方面的表现。 4. 搜索引擎技术:搜索引擎是现代信息检索的核心技术。搜索引擎通过采集、整理和索引互联网上的信息资源,并通过关键词匹配和排名算法等技术来满足用户的信息需求。 5. 信息可视化:为了帮助用户更好地理解和导航检索结果,信息可视化技术被广泛应用。这包括展示和呈现信息的方式,比如搜索结果的聚类、标签云、图表和交互式界面等。 现代信息检索的概念和技术正在不断发展和演进。随着互联网的迅速发展和数据爆炸的持续增长,信息检索面临着越来越多的挑战。同时,人工智能和大数据分析等新兴技术的应用也为信息检索带来了更多的创新和可能性。信息检索的发展将继续推动我们实现更高效、准确和个性化的信息搜索和检索体验。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值