带你认识在数据挖掘中的聚类分析方法

什么是聚类?

聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。

聚类和分类的区别:前者是无监督的而后者是有监督的
补充说明:有监督的方式是按照一定的类别来分的
无监督的方式是按照对象的相似程度来划分的,是不固定类别的

从数据挖掘的角度来说聚类分析方法分为这几种
1.划分聚类
2.层次聚类
3.基于密度的聚类
4.基于网格的聚类

划分聚类:给定一个n个对象的集合,构建数据分区,其中每个分区表示一个簇,并且k<<n。也就是说将数据划分为k个组,每个组至少包含一个对象。(划分方法首先创建一个初始划分,***采用迭代的重定位技术***把对象从一个组移动到另外的组。划分准测是**:同一个簇的对象要尽可能的接近或相关,而不同的簇要尽可能的远离和不同**)
层次聚类:是对给定数据对象集的层次分解——一般分为凝聚和分裂的方法。凝聚是从小到大,将每个对象单独作为一组,然后逐渐合并的过程。分裂是从大到小,将所有对象放在一组,然后通过迭代逐渐划分为更小的组,直到最终满足条件(**这是一个基于距离或者密度和连通性的。但是一旦合并或分裂完成就不能撤销**)
基于密度的聚类:大部分划分方法基于对象之间的距离进行聚类。在给定簇中的每个数据点,在给定的半径的领域中必须包含最少数目的点(**可以用来过滤噪声或离群点**。同时也可以将一个对象集划分成多个互斥的簇或簇的分成结构)
基于网格的方法:是通过把对象空间量化为有限个单元,行成一个网格结构,所有聚类的操作都在这个网格结构上进行,这种方法处理速度快,处理时间仅仅依赖于网格中的单元数,同时他也可以和其他的聚类方法集成。

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值