层次聚类算法（二）

最新推荐文章于 2023-01-16 22:12:10 发布

多线程

最新推荐文章于 2023-01-16 22:12:10 发布

阅读量1k

点赞数 1

分类专栏：机器学习&&数据挖掘&&推荐系统文章标签：聚类学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wojiaosusu/article/details/57086357

版权

机器学习&&数据挖掘&&推荐系统专栏收录该内容

37 篇文章 14 订阅

订阅专栏

　　上篇博文简单的讲述了层次聚类的基本概念，接下来就是具体的讲述凝聚的聚类算法AGNES算法与分裂的聚类算法DIANA聚类算法。

　　AGNES算法：

　　算法描述：

　　输入：包含n个对象的数据库，终止条件簇的数目k

　　输出：k个簇

　　　　　（1）将每个对象当成一个初始簇

　　　　　（2） Repeat

　　　　　（3）根据两个簇中最近的数据点找到最近的两个簇（这个地方的最近的衡量标准就是上篇博文所讲的四种距离度量方式）

　　　　　（4）合并两个簇，生成新的簇的集合

　　　　　（5） Until达到定义的簇的数目

算法性能：

　　　　（1）简单，但遇到合并点选择困难的情况。

　　　　（2）一旦一组对象被合并，不能撤销

　　　　（3）算法的复杂度为O(n的平方)，不适合大数据集

　　　不管是从原理上还是实现上，AGNES算法都显得十分简单。在K-MEANS算法中，初始化中心点的确定可以由AGNES、DIANA算法来大致确定。

　　DIANA算法：

　　输入：包含n个对象的数据库，终止条件簇的数目k

　　输出：k个簇，达到终止条件规定簇数目

　　（1）将所有对象整个当成一个初始簇 //初始化操作

　　（2 For ( i=1;i!=k;i++) DoBegin

　　（3）在所有簇中挑选出具有最大直径的簇；

　　（4）找出所挑出簇里与其他点平均相异度最大的一个点放入splinter group，剩余的放入old party中。

　　（5） Repeat

　　（6）在old party里找出到splintergroup中点的最近距离不大于old party中点的最近距离的点，并将该点加入splinter group

　　（7） Until 没有新的old party的点被分配给splintergroup；

　　（8） Splinter group 和old party为被选中的簇分裂成的两个簇，与其他簇一起组成新的簇集合。

　　（9）END

　　算法基本思想：每次选出最大的簇，将最大的簇进行分裂为两个簇。

　　算法性能：

　　缺点是已做的分裂操作不能撤销，类之间不能交换对象。如果在某步没有选择好分裂点，可能会导致低质量的聚类结果。大数据集不太适用。

　　层次聚类缺点：

　　传统的层次聚类算法的效率比较低 O(tn² )t: 迭代次数 n: 样本点数，最明显的一个缺点是不具有再分配能力，即如果样本点 A 在某次迭代过程中已经划分给类簇 C1 ，那么在后面的迭代过程中 A 将永远属于类簇 C1 ，这将影响聚类结果的准确性。

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
层次聚类算法（二）

上篇博文简单的讲述了层次聚类的基本概念，接下来就是具体的讲述凝聚的聚类算法AGNES算法与分裂的聚类算法DIANA聚类算法。AGNES算法：算法描述：输入：包含n个对象的数据库，终止条件簇的数目k 输出：k个簇（1）将每个对象当成一个初始簇（2） Repeat（3）
复制链接

扫一扫

专栏目录

多线程 CSDN认证博客专家 CSDN认证企业博客

码龄9年

44: 原创

24万+: 周排名

203万+: 总排名

18万+: 访问

: 等级

2146: 积分

149: 粉丝

73: 获赞

17: 评论

266: 收藏

私信

关注

热门文章

分类专栏

最新评论

梯度下降法
康康好老啊: 这个红色的对号打得挺讽刺
梯度下降法
小房子593: 这个u是什么啊
划分方法聚类（三） Canopy+K-MEANS 算法解析
DayDayUper___: 我个人理解，Canopy算法优化K-Means算法的目的是提高k值和Cluster选取的科学性。经典的K-Means算法所确定的K和cluster是人工的，盲目的，科学性不足，而通过Canopy算法的数据预处理，可以使得K-Means算法可以直接对整个DataSet不同的相对独立的cluster内部进行K-Means，不仅相对于对整体DataSet进行K-Means而言，更加准确，而且，可以通过对初步分好的cluster并发的进行K-Means，效率明显提高，收敛速率会明显提升！！
感知机算法（一）---原理
「已注销」: 为什么把书抄一遍
划分方法聚类（三） Canopy+K-MEANS 算法解析
LitheLight 回复 fire_the: 我也觉得k-means是对整体数据应用，k值和初始簇点使用canopy得到的结果

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。