聚类算法---Kmeans算法、K均值算法

小葵向前冲

已于 2022-04-08 14:53:44 修改

阅读量2.5k

点赞数

分类专栏：机器学习文章标签：机器学习神经网络算法

于 2022-04-08 14:43:26 首次发布

本文链接：https://blog.csdn.net/weixin_44177594/article/details/124040576

版权

24 篇文章 11 订阅

订阅专栏

提示：这些是自己整理可以借鉴也可能存在错误欢迎指正

前言

k-means算法是非监督聚类最常用的一种方法，因其算法简单和很好的适用于大样本数据，广泛应用于不同领域，本文详细总结了k-means聚类算法原理。

聚类算法：是一种典型的无监督学习算法，主要用于将相似的样本自动归到一个类别中。

聚类算法与分类算法最大的区别是：

在聚类算法中根据样本之间的相似性，将样本划分到不同的类别中，对于不同的相似度计算方法，会得到不同的聚类结果，常用的相似度计算方法有欧式距离法。

示例：pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。
算法思想：

数据之间的相似度与它们之间的欧式距离成反比，根据数据之间的欧式距离将数据分成k类

实例图：
在这里插入图片描述

在这里插入图片描述

K-means优点：

原理简单（靠近中心点） ，实现容易

聚类效果中上（依赖K的选择）

空间复杂度o(N)时间复杂度o(IKN) (N为样本点个数，K为中心点个数，I为迭代次数)

缺点：

对离群点， 噪声敏感 （中心点易偏移）

很难发现大小差别很大的簇及进行增量计算

结果不一定是全局最优，只能保证局部最优（与K的个数及初值选取有关）

关注

专栏目录