聚类分析以及k-means的优缺点

最新推荐文章于 2025-04-08 18:09:04 发布

xifenglie123321

最新推荐文章于 2025-04-08 18:09:04 发布

阅读量1.7k

点赞数 20

分类专栏： py 文章标签： kmeans 支持向量机机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xifenglie123321/article/details/137079991

版权

一.聚类分析cluster Analysis)是研究物以类聚的现代统计方法。在过去是依靠经验和专业知识做定性分析处理，很少利用数学方法多元统计分析逐渐被引进数值分类，形成聚类分析的分支。

思想：认为所研究的样本或指标（变量）之间存在着不同程度的相似性（亲疏关系）。于是根据一批样本的多个观测值指标，具体找出可以度量样本之间相似的统计量，以这些统计量作为划分类型的依据，把一些相似程度较大的样本聚合为一类，把另外一些彼此之间相似程度较大的样本又聚为一类，关系密切的聚合完毕，把不同类型的一一划分起来形成小到大的分类系统。

分型：Q型聚类：对样本的聚类；R型聚类：对变量的聚类

聚类统计量：1.距离：欧式距离，马氏距离，兰氏距离2.相似系数。（推理过程不展开了，可以网上搜索）

二.系统聚类法

（1）基本思想：确定了距离和相似系数后就要进行分类，有多种分类方法，最常用是样品自成一类，然后把每次具有最小距离的两类进行合并，合并后继续计算类与类之间的距离，这个过程是一直持续到把所有样本归为一类，并把这个过程作成一张聚类图，由聚类图进行方便的分类。

（1）最短距离法（single）：类与类之间的距离等于两类之间最靠近样本的距离。

(2) 最长距离法（complete):类与类之间的距离等于两类之间最远样本之间的距离。

（3）中间距离法（median):最长距离夸大了类间的距离，最短距离低估了类间距离。介于两者之间的距离称为中间距离。

（4）类平均法（average）：类与类之间的距离等于各元素的两两之间的平方距离。

（5）重心法（centroid):定义为重心的距离

（6）离差平方和法（ward)基于方差分析，如果分类正确，那么同类之间的离差平方和会非常小，反之，则比较大。

三.基本步骤：

(1)计算距离阵

计算n个样品之间的两两距离D

（2）进行系统聚类

构造n个类，每个类只包含一个样本࿱

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

xifenglie123321 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。