聚类算法（一）层次聚类

最新推荐文章于 2024-05-29 14:52:58 发布

Diehard_Yin

最新推荐文章于 2024-05-29 14:52:58 发布

阅读量8k

点赞数

分类专栏：数据挖掘文章标签：层次聚类聚类算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yinlili2010/article/details/40431321

版权

聚类

聚类是对点集进行考察并按照某种距离测度将他们聚成多个“簇”的过程。聚类的目标是使得同一簇内的点之间的距离较短，而不同簇中点之间的距离较大。

一、聚类算法介绍

层次法聚类和点分配法聚类。

1.1 点、空间和距离

点集是一种适合于聚类的数据集，每个点都是某空间下的对象。一般意义上，空间只是点的全集，也就是说数据集中的点从该集合中抽样而成。特别地，欧式空间下的点就是实数向量。向量的长度就是空间的维度数，而向量的分量通常称为所表示点的坐标(coordinate)。

能够进行聚类的所有空间下都有一个距离测度，即给出空间下任意两点的距离。一般的欧氏距离（点的坐标在各个维度上差值的平方和的算术平方根）可以作为所有欧式空间下的距离测度。

现代聚类问题可能并不这么简单。他们可能牵涉非常高维的欧式空间或者根本不在欧式空间下聚类。比如，基于文档间高频区分词的共现情况来依据主题对文档聚类。而按照电影爱好者所喜欢的电影类别对他们进行聚类。

1.2 聚类策略

按照聚类算法使用的两种不同的基本策略，可以将聚类算法分成两类。

1）层次（hierarchical）或凝聚式（agglomerative）算法。

这类算法一开始将每个点都看成簇。簇与簇之间按照接近度（closeness）来组合，接近度可以按照“接近”的不同含义采用不同的定义。当进一步的组合导致多个原因之下的非期望结果时，上述组合过程结束。比如停止条件为：达到预先给定的簇数目，或者使用簇的紧密度测度方法，一旦两个小簇组合之后得到簇内的点分散的区域较大就停止簇的构建。

2）点分配过程算法。按照某个顺序依次考虑每个点，并将它分配到最适合的簇中。该过程通常有一个短暂的初始簇估计阶段。一些变形算法允许临时的簇合并或分裂的过程，或者当点为离群点时允许不将该点分配到任何簇中。

聚类算法也可以使用如下方式分类：

1）欧式空间下，我们可以将点集合概括为其质心，即点的平均。而在非欧式空间下根本没有质心的概念，因此需要其他的簇概括方法。

2）算法是否假设数据足够小的能够放入内存？或者说数据是否必须主要存放在二次存储器？由于不能将所有簇的所有点都同时放入内存，所以我们将簇的概括表示存放在内存中也是必要的。

1.3 维数灾难

最低0.47元/天解锁文章

关注

0
点赞
踩
13

收藏

觉得还不错? 一键收藏
2
评论
聚类算法（一）层次聚类

聚类聚类是对点集进行考察并按照某种距离测度将他们聚成多个“簇”的过程。聚类的目标是使得同一簇内的点之间的距离较短，而不同簇中点之间的距离较大。一、聚类算法介绍层次法和点分配法。1.1 点、空间和距离点集是一种适合于聚类的数据集，每个点都是某空间下的对象。一般意义上，空间只是点的全集，也就是说数据集中的点从该集合中抽样而成。特别地，欧式空间下的点就是实数
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。