聚类简介

最新推荐文章于 2022-06-25 17:51:35 发布

wf592523813

最新推荐文章于 2022-06-25 17:51:35 发布

阅读量438

点赞数

文章标签：聚类

https://blog.csdn.net/itplus/article/details/21905449 强烈推荐左边的博客，写的很详细

聚类（Clustering）算法本质也是对数据进行分类，将相异的数据尽可能地分开，而将相似的数据聚成一个类别（也叫族，cluster），即物以类聚，从而优化大规模数据库的查询和发现数据中隐含的有用信息和知识。

聚类方法主要有以下五类：

基于分层的聚类（hierarchical methods）：对给定的数据集进行逐层分解，知道满足某种条件为止。可分为合并型的“自底向上”和分裂型的“自顶向下”两种。代表算法有：BIRCH算法（1996）、CURE算法、CHAMELEON算法等。
基于划分的聚类（partitioning methods）：给定有N个记录的数据集，划分法将构造K个分组，每一个分组代表一个聚类，K小于N，且K个分组满足以下条件：（1）每个分组至少包含一条记录；（2）每一条记录属于且仅属于一个分组。对于给定的K，算法首先给出一个初始的分组，然后通过反复迭代的方法改变分组，使得每一次迭代之后的分组方案较前一次好。标准是：同一组中的记录越近越好，而不同分组中的记录越远越好。使用这个基本思想的算法有：K-means算法、K-medoids算法、CLARANS算法。
基于密度的聚类（density-based methods）：与其他算法的根本区别是：它不是基于各种各样距离的，而是基于密度的，可以克服基于距离的算法只能发现“类圆形”的聚类的缺点。基本指导思想是：只要一个区域中的点的密度大过某个阈值，就把他加到与之相近的聚类中去。代表算法：DBSCAN(Density-Based Spatial Clustering of Application with Noise)算法（1996）、OPTICS（Ordering Points to Identify Clustering Structure）算法（1999）、DENCLUE算法（1998）、WaveCluster算法（1998）
基于网格的聚类（grid-based methods）：将数据空间划分为有限个单元的网格结构，所有的处理都是以单个的单元为对象的，优点是速度快，通常与数据库中的记录的个数无关，只与把数据空间分为多少个单元有关。代表算法：STING(Statistical Information Grid）算法、CLIQUE(Clustering In Quest)算法（1998）、WaveCluster算法。其中STING算法把数据空间层次划分为单元格，依赖于存储在网格单元中的统计信息进行聚类；CLIQUE算法结合了密度和网格的方法。
基于模型的聚类（model-based methods）：给每一个聚类假定一个模型，然后去寻找能够很好地满足这个模型的数据集。这样的一个模型可能是数据点在空间中的密度分布函数。它的一个潜在假定是：目标数据集是由一系列的概率分布所决定的，通常有两种尝试方向：统计的方案和神经网络的方案。

数据挖掘对聚类的典型要求包括：
可伸缩性
处理不同类型属性的能力
发现任意形状的类簇
对聚类算法初始化参数的知识需求的最小化
处理噪声数据的能力
增量聚类和对输入次序的不敏感
高维性
基于约束的聚类
可解释性和可用性

wf592523813

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
聚类简介

https://blog.csdn.net/itplus/article/details/21905449聚类（Clustering）算法本质也是对数据进行分类，将相异的数据尽可能地分开，而将相似的数据聚成一个类别（也叫族，cluster），即物以类聚，从而优化大规模数据库的查询和发现数据中隐含的有用信息和知识。聚类方法主要有以下五类：基于分层的聚类（hierarchical met...
复制链接

扫一扫