常见聚类方法的介绍及其改进与评估方法

最新推荐文章于 2023-11-26 13:28:50 发布

打不死的小王

最新推荐文章于 2023-11-26 13:28:50 发布

阅读量2.7k

点赞数 1

分类专栏：机器学习文章标签：聚类非监督学习 k-means 机器学习

本文链接：https://blog.csdn.net/weixin_43842041/article/details/87973622

版权

本文介绍了聚类方法，包括k-means和系统聚类法，强调了聚类过程中的注意事项，如初始值选择和k值的确定。讨论了k-means的优缺点，并提出改进措施，如k-means++和isodata。同时，文章还探讨了聚类效果的评估方法，如轮廓系数、R方和均方根标准偏差。

摘要由CSDN通过智能技术生成

聚类方法主要分为自上而下聚类和自下而上聚类。
自上而下聚类指的是，首先将所有的样本点一起看作一类，对这一大类不停地进行拆分；
而自下而上聚类指的是，首先把每个点自己都看成一类，这样起始会有n类，之后再逐渐合并。

因为使用欧式距离，因此要做标准化。

其实选k的方法就是选取不停地k进行尝试之后选择类内离差平方和最小的k。
主要有碎石图法和gap statistic方法，思想类似。

k-means ++
k-means的初始值是随机选取的，不好；
改进方法是k-means++方法。
k-means++方法中，第一个种子随机选取，之后的每一个种子，都选择与前面的种子距离比较大的那些。
isodata
k-means聚类过程中k不变化，不好；如果能够动态变化就好了。isodata就是这个思想。
如果某类过大（方差超过阈值），则将其拆分；
如果某两类距离过近（重心距离小于阈值），则将其合并；
如果某类拆分后的子类过小（内部元素个数小于阈值），则不拆。

在进行聚类之前，需要判断数据是否可以进行聚类，即数据是否是随机分布，是否存在非随机的簇结构。
方法是：
a）首先计算数据集中每一个点到最近点的距离，得到n个距离 $x_i$ ；
b）在数据取值范围内随机生成n个点，对这随机生成的n个点中的每一个点，寻找与其距离最近的点，并分别计算距离，得到n个距离 $y_i$ ；
c）比较 $\Sigma{x_i}$ 和 $\Sigma{y_i}$