带你认识在数据挖掘中的聚类分析方法

最新推荐文章于 2024-07-07 15:59:16 发布

一名正在努力的大数据learner

最新推荐文章于 2024-07-07 15:59:16 发布

阅读量1.6k

点赞数

文章标签：聚类数据挖掘

本文链接：https://blog.csdn.net/weixin_43999048/article/details/105462263

版权

什么是聚类？

聚类是将数据分类到不同的类或者簇这样的一个过程，所以同一个簇中的对象有很大的相似性，而不同簇间的对象有很大的相异性。

聚类和分类的区别：前者是无监督的而后者是有监督的
补充说明：有监督的方式是按照一定的类别来分的
无监督的方式是按照对象的相似程度来划分的，是不固定类别的

从数据挖掘的角度来说聚类分析方法分为这几种
1.划分聚类
2.层次聚类
3.基于密度的聚类
4.基于网格的聚类

划分聚类：给定一个n个对象的集合，构建数据分区，其中每个分区表示一个簇，并且k<<n。也就是说将数据划分为k个组，每个组至少包含一个对象。（划分方法首先创建一个初始划分，***采用迭代的重定位技术***把对象从一个组移动到另外的组。划分准测是**：同一个簇的对象要尽可能的接近或相关，而不同的簇要尽可能的远离和不同**）
层次聚类：是对给定数据对象集的层次分解——一般分为凝聚和分裂的方法。凝聚是从小到大，将每个对象单独作为一组，然后逐渐合并的过程。分裂是从大到小，将所有对象放在一组，然后通过迭代逐渐划分为更小的组，直到最终满足条件（**这是一个基于距离或者密度和连通性的。但是一旦合并或分裂完成就不能撤销**）
基于密度的聚类：大部分划分方法基于对象之间的距离进行聚类。在给定簇中的每个数据点，在给定的半径的领域中必须包含最少数目的点（**可以用来过滤噪声或离群点**。同时也可以将一个对象集划分成多个互斥的簇或簇的分成结构）
基于网格的方法：是通过把对象空间量化为有限个单元，行成一个网格结构，所有聚类的操作都在这个网格结构上进行，这种方法处理速度快，处理时间仅仅依赖于网格中的单元数，同时他也可以和其他的聚类方法集成。

在这里插入图片描述