聚类与回归

牛哥带你学代码

于 2023-08-13 14:42:16 发布

阅读量3.7k

点赞数 2

分类专栏： Python数据分析文章标签：聚类回归数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_60535956/article/details/132218466

版权

Python数据分析专栏收录该内容

21 篇文章 4 订阅

订阅专栏

聚类

聚类属于非监督式学习（无监督学习），往往不知道因变量。

通过观察学习，将数据分割成多个簇。

回归

回归属于监督式学习（有监督学习），知道因变量。

通过有标签样本的学习分类器

聚类和回归的区别

在数据分类过程中，我们可以直接知道回归对应的具体类别名，但是在聚类过程中，我们只能知道聚类对应的类别与xxx是同一种类别。

比如：我们在使用分类处理一些水果时，我们可以知道某一个水果具体是什么水果，但是聚类我们只能知道这个水果和其他的某些水果是同一种水果，但是我们却不能知道具体的水果类型名是什么。

聚类的基本方法有三大类：

划分方法（K均值、K-Means）

通过反复迭代，先随机分配均值点，根据均值点形成聚簇，形成聚簇之后，再调整均值点。调整均值点后，再进一步反复进行迭代，最后找到我们相应的聚簇。

层次方法（层次聚类法）

凝聚的（agglomeration）和分裂的（divisive）层次聚类图示

层次聚类有两种方法，一种是自底向上的方法，这种方法称为凝聚法。另一种方法是自下而上的方法，该方法又称为划分的方法。

凝聚法的过程:我们通过水来凝结成冰。首先根据数据进行相似性计算，把相似的数据形成一个簇，形成了各种小簇，进一步计算簇和簇之间的相似性，如果簇和簇之间的相似性更高，将他们合并形成更大的簇。从㡳向上凝聚，形成我们想要的一个聚簇的一个结束条件时，得到我们想要的一个聚簇（层次聚类的结束条件有很多方法，比如从㡳向上进行聚类时，当聚到第k个聚簇的时候，我们就停止迭代；另外一种，我们当进行迭代时，我们数据的相似性足够高，越往上走，聚簇和聚簇的相似性就会越来越低，当相似性的阈值低到一定程度时，就可以认为我的一个层次聚类停止，如此一来就得到了相应的聚簇，即为我们的层次聚类）

霍普金斯统计量

假如求出来的霍普金斯统计量数据接近1，这说明比较符合聚类的要求；若霍普金斯统计量接近0.5，则说明数据接近于均匀分布，不适合对其进行均匀分布。

聚类的大致流程：

1、通过计算霍普金斯统计量判断数据质量，判断当前数据是否需要聚类

2、通过使用一些方法，如：肘方法。来计算我们需要聚簇的k的数量。

3、在了解了k的数量以后，使用相应的k均值，或者是层次聚类法进行聚类

4、聚类结束后，对聚类的结果进行评估，对于聚类的评估方法通常有两种方法，一种是外在方法，类似于分类，需要有一个基准，用来评价聚类结果的准确率；一种是内在方法，通过我们的轮廓系数，来评价聚类质量的好坏。轮廓系数越接近1，聚类的效果就越好；第三种，聚类中常见的四种特征。

牛哥带你学代码

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
1
评论
聚类与回归

详细解释聚类和回归的概念和相关特性
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

牛哥带你学代码 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。