层次聚类无监督学习算法详细解读

点击链接加入群聊【技术交流群1】:

层次聚类(Hierarchical Clustering)是一种无监督学习算法,用于将数据集划分为不同的簇。与K均值聚类不同的是,层次聚类不需要预先指定簇的个数,而是通过逐步合并或分裂簇的方式构建一个簇层次树(dendrogram),从而得到不同层次的聚类结果。

下面详细介绍层次聚类的主要步骤:

初始化
首先,将每个数据点都看作一个独立的簇,并将它们添加到一个初始簇集合中。

计算距离
对于所有可能的簇对,计算它们之间的距离。通常采用欧氏距离、曼哈顿距离等距离度量方法。

合并最近的簇
选择距离最近的两个簇,并将它们合并成一个新的簇。这里有两种合并的方法:单链接和全链接。单链接(Single Linkage)是指选取两个簇中距离最近的两个数据点之间的距离作为簇与簇之间的距离;全链接(Complete Linkage)则是指选取两个簇中距离最远的两个数据点之间的距离作为簇与簇之间的距离。

更新簇集合
将新的簇添加到簇集合中,并从集合中删除被合并的原始簇。

重复合并和更新
重复执行步骤2到步骤4,直到只剩下一个簇或达到预定义的停止条件(如达到最大聚类个数)为止。

输出聚类结果
当停止条件满足后,层次聚类算法会输出最终的聚类结果。这里可以通过截取簇层次树来得到不同层次的聚类结果,也可以使用确定性阈值来判断每个簇的分裂或合并情况。

层次聚类的优点包括:

不需要预先指定簇的个数,适用于各种复杂的数据集;
可以通过簇层次树来展示聚类结果,方便可视化和解释;
对于不同的距离度量和合并方法,可以得到不同的聚类结果,具有较大的灵活性。
然而,层次聚类也存在一些限制和缺点:

计算复杂度较高,对于大规模数据集可能不太适用;
聚类结果受到距离度量和合并方法的影响,不同的选择可能会导致不同的聚类结果;
层次聚类是一种贪心算法,可能会陷入局部最优解。90d775ab95cc498994b82bba0709f76a.jpeg

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值