聚类简介

https://blog.csdn.net/itplus/article/details/21905449 强烈推荐左边的博客,写的很详细

聚类(Clustering)算法本质也是对数据进行分类,将相异的数据尽可能地分开,而将相似的数据聚成一个类别(也叫族,cluster),即物以类聚,从而优化大规模数据库的查询和发现数据中隐含的有用信息和知识。

聚类方法主要有以下五类:

  • 基于分层的聚类(hierarchical methods):对给定的数据集进行逐层分解,知道满足某种条件为止。可分为合并型的“自底向上”和分裂型的“自顶向下”两种。代表算法有:BIRCH算法(1996)、CURE算法、CHAMELEON算法等。

  • 基于划分的聚类(partitioning methods):给定有N个记录的数据集,划分法将构造K个分组,每一个分组代表一个聚类,K小于N,且K个分组满足以下条件:(1)每个分组至少包含一条记录;(2)每一条记录属于且仅属于一个分组。对于给定的K,算法首先给出一个初始的分组,然后通过反复迭代的方法改变分组,使得每一次迭代之后的分组方案较前一次好。标准是:同一组中的记录越近越好,而不同分组中的记录越远越好。使用这个基本思想的算法有:K-means算法、K-medoids算法、CLARANS算法。

  • 基于密度的聚类(density-based methods):与其他算法的根本区别是:它不是基于各种各样距离的,而是基于密度的,可以克服基于距离的算法只能发现“类圆形”的聚类的缺点。基本指导思想是:只要一个区域中的点的密度大过某个阈值,就把他加到与之相近的聚类中去。代表算法:DBSCAN(Density-Based Spatial Clustering of Application with Noise)算法(1996)、OPTICS(Ordering Points to Identify Clustering Structure)算法(1999)、DENCLUE算法(1998)、WaveCluster算法(1998)

  • 基于网格的聚类(grid-based methods):将数据空间划分为有限个单元的网格结构,所有的处理都是以单个的单元为对象的,优点是速度快,通常与数据库中的记录的个数无关,只与把数据空间分为多少个单元有关。代表算法:STING(Statistical Information Grid)算法、CLIQUE(Clustering In Quest)算法(1998)、WaveCluster算法。其中STING算法把数据空间层次划分为单元格,依赖于存储在网格单元中的统计信息进行聚类;CLIQUE算法结合了密度和网格的方法。

  • 基于模型的聚类(model-based methods):给每一个聚类假定一个模型,然后去寻找能够很好地满足这个模型的数据集。这样的一个模型可能是数据点在空间中的密度分布函数。它的一个潜在假定是:目标数据集是由一系列的概率分布所决定的,通常有两种尝试方向:统计的方案和神经网络的方案。

数据挖掘对聚类的典型要求包括:
可伸缩性
处理不同类型属性的能力
发现任意形状的类簇
对聚类算法初始化参数的知识需求的最小化
处理噪声数据的能力
增量聚类和对输入次序的不敏感
高维性
基于约束的聚类
可解释性和可用性


  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值