K-means聚类算法和模糊C-means聚类算法

最新推荐文章于 2024-07-19 10:51:16 发布

Code Wang

最新推荐文章于 2024-07-19 10:51:16 发布

阅读量4.1w

点赞数 41

分类专栏：数学建模文章标签： K-means C-means 聚类算法 matlab

本文链接：https://blog.csdn.net/wzl1997/article/details/79264560

版权

本文介绍了K-means聚类算法的优缺点，包括其快速、简单、对大数据集的高效处理，但也指出K-means算法在确定聚类数、初始中心选择以及大数据处理上的挑战。接着，文章提到了模糊C-means算法，它通过优化目标函数得到样本点的隶属度，提供更灵活的聚类效果。通过MATLAB程序示例和结果比较，显示模糊C-means在某些情况下可能优于K-means。

摘要由CSDN通过智能技术生成

K-means聚类算法和模糊C-means聚类算法

1.K-means聚类算法

K-means算法是硬聚类算法，是典型的基于原型的目标函数聚类方法的代表，它是数据点到原型的某种距离作为优化的目标函数，利用函数求极值的方法得到迭代运算的调整规则。K-means算法以欧式距离作为相似度测度，它是求对应某一初始聚类中心向量V最优分类，使得评价指标J最小。算法采用误差平方和准则函数作为聚类准则函数。

K-Means聚类算法的优点主要集中在:

1.算法快速、简单;

2.对大数据集有较高的效率并且是可伸缩性的;

3.时间复杂度近于线性，而且适合挖掘大规模数据集。K-Means聚类算法的时间复杂度是O(nkt) ,其中n代表数据集中对象的数量，t代表着算法迭代的次数，k代表着簇的数目。

K-Means聚类算法的缺点：

① 在 K-means 算法中 K 是事先给定的，这个 K 值的选定是非常难以估计的。很多时候，事先并不知道给定的数据集应该分成多少个类别才最合适。这也是 K-means 算法的一个不足。有的算法是通过类的自动合并和分裂，得到较为合理的类型数目 K，例如 ISODATA 算法。关于 K-means 算法中聚类数目K 值的确定在文献中，是根据方差分析理论，应用混合 F统计量来确定最佳分类数，并应用了模糊划分熵来验证最佳分类数的正确性。在文献中，使用了一种结合全协方差矩阵的 RPCL 算法，并逐步删除那些只包含少量训练数据的类。而文献中使用的是一种称为次胜者受罚的竞争学习规则，来自动决定类的适当数目。它的思想是：对每个输入而言，不仅竞争获胜单元的权值被修正以适应输入值，而且对次胜单元采用惩罚的方法使之远离输入值。

② 在 K-means 算法中，首先需要根据初始聚类中心来确定一个初始划分，然后对初始划分进行优化。这个初始聚类中心的选择对聚类结果有较大的影响，一旦初始值选择的不好，可能无法得到有效的聚类结果，这也成为 K-means算法的一个主要问题。对于该问题的解决，许多算法采用遗传算法（GA），例如文献中采用遗传算法（GA）进行初始化，以内部聚类准则作为评价指标。

③ 从 K-means 算法框架可以看出，该算法需要不断地进行