网格聚类算法（三）

最新推荐文章于 2024-02-19 17:34:59 发布

多线程

最新推荐文章于 2024-02-19 17:34:59 发布

阅读量1.1w

点赞数 5

分类专栏：机器学习&&数据挖掘&&推荐系统文章标签：聚类学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wojiaosusu/article/details/58251769

版权

机器学习&&数据挖掘&&推荐系统专栏收录该内容

37 篇文章 14 订阅

订阅专栏

CLIQUE:一种类似于Apriori的子空间聚类算法

　　CLIQUE算法是基于网格的空间聚类算法，但它同时也非常好的结合了基于密度的聚类算法，因此既能够发现任意形状的簇，又可以像基于网格的算法一样处理较大的多维数据。

　　CLIQUE算法把每个维划分成不重叠的社区，从而把数据对象的整个嵌入空间划分成单元，它使用一个密度阈值来识别稠密单位，一个单元是稠密的，如果映射到它的对象超过密度阈值。

　　总结之就是：CLIQUE算法是一种基于网格的聚类算法，用于发现子空间中基于密度的簇。

　　算法概述：

　　算法需要两个参数：一个是网格的步长，第二个是密度的阈值。

　　网格步长确定了空间的划分，而密度阈值用来定义密集网格

　聚类思想：

　　（1）首先扫描所有网格。当发现第一个密集网格时，便以该网格开始扩展，扩展原则是若一个网格与已知密集区域内的网格邻接并且其其自身也是密集的，则将该网格加入到该秘籍区域中，知道不再有这样的网格被发现为止。（密集网格合并）

　　（2）算法再继续扫描网格并重复上述过程，知道所有网格被遍历。以自动地发现最高维的子空间，高密度聚类存在于这些子空间中，并且对元组的输入顺序不敏感，无需假设任何规范的数据分布，它随输入数据的大小线性地扩展，当数据的维数增加时具有良好的可伸缩性。

　　聚类算法如上图所示，总结之就是：首先判断是不是密集网格，如果是密集网格。那么对其相邻的网格进行遍历，看是否是密集网格，如果是的话，那么属于同一个簇。

　　CLIQUE优点：

　　（1）给定每个属性的划分，单遍数据扫描就可以确定每个对象的网格单元和网格单元的计数。

　　（2）尽管潜在的网格单元数量可能很高，但是只需要为非空单元创建网格。

　　（3）将每个对象指派到一个单元并计算每个单元的密度的时间复杂度和空间复杂度为O(m)，整个聚类过程是非常高效的

　　缺点：

　　（1）像大多数基于密度的聚类算法一样，基于网格的聚类非常依赖于密度阈值的选择。（太高，簇可能丢失。太低，本应分开的簇可能被合并）

　　（2）如果存在不同密度的簇和噪声，则也许不可能找到适合于数据空间所有部分的值。

　　（3）随着维度的增加，网格单元个数迅速增加（指数增长）。即对于高维数据，基于网格的聚类倾向于效果很差。

关注

5
点赞
踩
34

收藏

觉得还不错? 一键收藏
1
评论
网格聚类算法（三）

CLIQUE:一种类似于Apriori的子空间聚类算法 CLIQUE算法是基于网格的空间聚类算法，但它同时也非常好的结合了基于密度的聚类算法，因此既能够发现任意形状的簇，又可以像基于网格的算法一样处理较大的多维数据。CLIQUE算法把每个维划分成不重叠的社区，从而把数据对象的整个嵌入空间划分成单元，它使用一个密度阈值来识别稠密单位，一个单元是稠密的，如果映射到它的对象超过密度阈值。
复制链接

扫一扫

专栏目录

多线程 CSDN认证博客专家 CSDN认证企业博客

码龄9年

44: 原创

24万+: 周排名

203万+: 总排名

18万+: 访问

: 等级

2146: 积分

149: 粉丝

73: 获赞

17: 评论

266: 收藏

私信

关注

热门文章

分类专栏

最新评论

梯度下降法
康康好老啊: 这个红色的对号打得挺讽刺
梯度下降法
小房子593: 这个u是什么啊
划分方法聚类（三） Canopy+K-MEANS 算法解析
DayDayUper___: 我个人理解，Canopy算法优化K-Means算法的目的是提高k值和Cluster选取的科学性。经典的K-Means算法所确定的K和cluster是人工的，盲目的，科学性不足，而通过Canopy算法的数据预处理，可以使得K-Means算法可以直接对整个DataSet不同的相对独立的cluster内部进行K-Means，不仅相对于对整体DataSet进行K-Means而言，更加准确，而且，可以通过对初步分好的cluster并发的进行K-Means，效率明显提高，收敛速率会明显提升！！
感知机算法（一）---原理
「已注销」: 为什么把书抄一遍
划分方法聚类（三） Canopy+K-MEANS 算法解析
LitheLight 回复 fire_the: 我也觉得k-means是对整体数据应用，k值和初始簇点使用canopy得到的结果

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。