几种常用的聚类算法分析比较

最新推荐文章于 2024-08-01 23:17:45 发布

??????ing

最新推荐文章于 2024-08-01 23:17:45 发布

阅读量9.8k

点赞数 1

分类专栏：聚类算法算法分析

本文链接：https://blog.csdn.net/wumingshixiaowu/article/details/44748105

版权

本文对比分析了常见的聚类算法，如K-pototypes、CLARANS、BIRCH、CURE、DBSCAN和CLIQUE，重点关注它们在大数据量处理、数据类型适应性、聚类形状发现、对脏数据的容忍度以及对输入顺序的敏感性方面的表现。BIRCH算法在大数据量上表现出色，但仅适用于凸形或球形聚类；DBSCAN能发现任意形状的聚类，但对参数敏感；CURE对非球形聚类有较好适应性，且对输入顺序不敏感。

摘要由CSDN通过智能技术生成

将数据库中的对象进行聚类是聚类分析的基本操作，其准则是使属于同一类的个体间距离尽可能小，而不同类个体间距离尽可能大，为了找到效率高、通用性强的聚类方法人们从不同角度提出了近百种聚类方法，典型的有K-means方法、K-medoids方法、CLARANS方法,BIRCH方法等，这些算法适用于特定的问题及用户。本文综合提出了评价聚类算法好坏的5个标准，基于这5个标准，对数据挖掘中常用聚类方法作了比较分析，以便于人们更容易、更快捷地找到一种适用于特定问题及用户的聚类算法。

聚类算法研究及比较框架
　　聚类算法一般有五种方法，最主要的是划分方法和层次方法两种。划分聚类算法通过优化评价函数把数据集分割为K个部分，它需要K作为输人参数。典型的分割聚类算法有K-means算法, K-medoids算法、CLARANS算法。层次聚类由不同层次的分割聚类组成，层次之间的分割具有嵌套的关系。它不需要输入参数，这是它优于分割聚类算法的一个明显的优点，其缺点是终止条件必须具体指定。典型的分层聚类算法有BIRCH算法、DBSCAN算法和CURE算法等。
　　对各聚类算法的比较研究基于以下5个标准：
　　① 是否适用于大数据量，算法的效率是否满足大数据量高复杂性的要求;
　　② 是否能应付不同的数据类型，能否处理符号属性;
　　③ 是否能发现不同类型的聚类;
　　④ 是否能应付脏数据或异常数据;
　　⑤ 是否对数据的输入顺序不敏感。
　　下面将在该框架下对各聚类算法作分析比较。