记录篇：【菜菜scikit-learn机器学习】sklearn中的聚类算法K-Means

最新推荐文章于 2024-09-06 09:46:37 发布

W_Yeee

最新推荐文章于 2024-09-06 09:46:37 发布

阅读量1.4k

点赞数

文章标签：机器学习人工智能机器学习

本文链接：https://blog.csdn.net/weixin_48592695/article/details/121617084

版权

本文深入探讨了无监督学习中的聚类算法，特别是KMeans算法。介绍了KMeans的工作原理，包括簇内误差平方和的概念，以及算法的时间复杂度。此外，还讨论了sklearn库中的聚类实现，强调了n_clusters参数的重要性。对于模型评估，提到了轮廓系数和Calinski-Harabaz Index等指标，并分析了它们在聚类效果评估中的局限性。

摘要由CSDN通过智能技术生成

3.sklearn.cluster.KMeans

当真实标签未知的时候：Calinski-Harabaz Index

1.无监督学习与聚类算法

聚类算法又叫做 “ 无监督分类 ” ，其目的是将数据划分成有意义或有用的组（或簇）。这种划分可以基于我们的业务需求或建模需求来完成，也可以单纯地帮助我们探索数据的自然结构和分布。比如在商业中，如果我们手头有大量的当前和潜在客户的信息，我们可以使用聚类将客户划分为若干组，以便进一步分析和开展营销活动，最有名的客户价值判断模型RFM ，就常常和聚类分析共同使用。再比如，聚类可以用于降维和矢量量化（ vector quantization），可以将高维特征压缩到一列当中，常常用于图像，声音，视频等非结构化数据，可以大幅度压缩数据量。

sklearn中的聚类算法

聚类算法在 sklearn 中有两种表现形式，一种是类（和我们目前为止学过的分类算法以及数据预处理方法们都一样），需要实例化，训练并使用接口和属性来调用结果。另一种是函（function ），只需要输入特征矩阵和超参数，即可返回聚类的结果和各种指标。

输入数据

需要注意的一件重要事情是，该模块中实现的算法可以采用不同类型的矩阵作为输入。所有方法都接受形状[n_samples， n_features] 的标准特征矩阵，这些可以从 sklearn.feature_extraction 模块中的类中获得。对于亲和力传播，光谱聚类和DBSCAN ，还可以输入 [n_sample,s n_samples] 的相似性矩阵，我们可以使用sklearn.metrics.pairwise模块中的函数来获取相似性矩阵。

2.KMeans

关键概念：簇与质心

KMeans 算法将一组 N 个样本的特征矩阵 X 划分为 K 个无交集的簇，直观上来看是簇是一组一组聚集在一起的数据，在一个簇中的数据就认为是同一类。簇就是聚类的结果表现。簇中所有数据的均值通常被称为这个簇的“ 质心 ” （ centroids ）。在一个二维平面中，一簇数据点的质心的横坐标就是这一簇数据点的横坐标的均值，质心的纵坐标就是这一簇数据点的纵坐标的均值。同理可推广至高维空间。

在 KMeans 算法中，簇的个数 K 是一个超参数，需要我们人为输入来确定。 KMeans 的核心任务就是根据我们设定好的K ，找出K个最优的质心，并将离这些质心最近的数据分别分配到这些质心代表的簇中去。具体过程可以总结如下：

那什么情况下，质心的位置会不再变化呢？当我们找到一个质心，在每次迭代中被分配到这个质心上的样本都是一致的，即每次新生成的簇都是一致的，所有的样本点都不会再从一个簇转移到另一个簇，质心就不会变化了。

簇内误差平方和的定义和解惑

聚类算法聚出的类有什么含义呢？这些类有什么样的性质？我们认为， 被分在同一个簇中的数据是有相似性的，而 不同簇中的数据是不同的 ，当聚类完毕之后，我们就要分别去研究每个簇中的样本都有什么样的性质，从而根据业务需求制定不同的商业或者科技策略。

聚类算法追求 “ 簇内差异小，簇外差异大” 。而这个 “ 差异 “ ，由 样本点到其所在簇的质心的距离 来衡量。对于一个簇来说，所有样本点到质心的距离之和越小，我们就认为这个簇中的样本越相似，簇内差异就越小。而距离的衡量方法有多种，令表示簇中的一个样本点，表示该簇中的质心，n 表示每个样本点中的特征数目，i表示组成点的每个特征，则该样本点到质心的距离可以由以下距离来度量：

解惑： Kmeans 有损失函数吗？

记得我们在逻辑回归中曾有这样的结论：损失函数本质是用来衡量模型的拟合效果的，只有有着求解参数需求的算法，才会有损失函数。

Kmeans 不求解什么参数，它的模型本质也没有在拟合数据，而是在对数据进行一种探索。所以如果你去问大多数数据挖掘工程师，甚至是算法工程师，他们可能会告诉你说，K-Means 不存在什么损失函数，Inertia 更像是 Kmeans 的模型评估指标，而非损失函数。

但我们类比过了 Kmeans 中的 Inertia 和逻辑回归中的损失函数的功能，我们发现它们确实非常相似。所以，从“ 求解模型中的某种信息，用于后续模型的使用 “ 这样的功能来看，我们可以认为 Inertia 是 Kmeans 中的损失函数，虽然这种说法并不严谨。对比来看，在决策树中，我们有衡量分类效果的指标准确度accuracy ，准确度所对应的损失叫做泛化误差，但我们不能通过最小化泛化误差来求解某个模型中需要的信息，我们只是希望模型的效果上表现出来的泛化误差很小。因此决策树，KNN 等算法，是绝对没有损失函数的。

KMeans算法的时间复杂度

KMeans 算法的平均复杂度是 O(k*n*T) ，其中 k 是我们的超参数，所需要输入的簇数， n 是整个数据集中的样本量，T是所需要的迭代次数（相对的， KNN 的平均复杂度是 O(n) ）。

3.sklearn.cluster.KMeans

重要参数n_clusters

n_clusters是KMeans中的k，表示着我们告诉模型我们要分几类。这是KMeans当中唯一一个必填的参数，默认为8类，但通常我们的聚类结果会是一个小于8的结果。通常，在开始聚类之前，我们并不知道n_clusters究竟是多少，因此我们要对它进行探索。

聚类算法的模型评估指标

不同于分类模型和回归，聚类算法的模型评估不是一件简单的事。在分类中，有直接结果（标签）的输出，并且分类的结果有正误之分，所以我们使用预测的准确度，混淆矩阵，ROC 曲线等等指标来进行评估，但无论如何评估，都是在” 模型找到正确答案 “ 的能力。而回归中，由于要拟合数据，我们有 SSE 均方误差，有损失函数来衡量模型的拟合程度。但这些衡量指标都不能够使用于聚类。

面试高危问题：如何衡量聚类算法的效果？

聚类模型的结果不是某种标签输出，并且聚类的结果是不确定的，其优劣由业务需求或者算法需求来决定，并且没有永远的正确答案。那我们如何衡量聚类的效果呢？

记得我们说过， KMeans 的目标是确保 “ 簇内差异小，簇外差异大 ” ，我们就可以通过 衡量簇内差异来衡量聚类的效 果。我们刚才说过， Inertia 是用距离来衡量簇内差异的指标，因此，我们是否可以使用 Inertia 来作为聚类的衡量指标呢？Inertia 越小模型越好嘛。可以，但是这个指标的缺点和极限太大。

首先，它不是有界的。我们只知道， Inertia 是越小越好，是 0 最好，但我们不知道，一个较小的 Inertia 究竟有没有达到模型的极限，能否继续提高。

第二，它的计算太容易受到特征数目的影响，数据维度很大的时候， Inertia 的计算量会陷入维度诅咒之中，计算量会爆炸，不适合用来一次次评估模型。

第三，它会受到超参数 K 的影响，在我们之前的常识中其实我们已经发现，随着 K 越大， Inertia 注定会越来越小，但这并不代表模型的效果越来越好了

第四， Inertia 对数据的分布有假设，它假设数据满足凸分布（即数据在二维平面图像上看起来是一个凸函数的样子），并且它假设数据是各向同性的（isotropic ），即是说数据的属性在不同方向上代表着相同的含义。但是现实中的数据往往不是这样。所以使用Inertia 作为评估指标，会让聚类算法在一些细长簇，环形簇，或者不规则形状的流形时表现不佳.

当真实标签已知的时候

虽然我们在聚类中不输入真实标签，但这不代表我们拥有的数据中一定不具有真实标签，或者一定没有任何参考息。当然，在现实中，拥有真实标签的情况非常少见（几乎是不可能的）。如果拥有真实标签，我们更倾向于使用分类算法。但不排除我们依然可能使用聚类算法的可能性。如果我们有样本真实聚类情况的数据，我们可以对于聚类算法的结果和真实结果来衡量聚类的效果。常用的有以下三种方法：互信息分、V-measure、调整兰德系数