机器学习笔记四：K-Means算法

最新推荐文章于 2020-09-02 06:47:53 发布

xckkcxxck

最新推荐文章于 2020-09-02 06:47:53 发布

阅读量287

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xckkcxxck/article/details/79929653

版权

机器学习专栏收录该内容

29 篇文章 0 订阅

订阅专栏

一、无监督学习介绍：

在K均值算法是一种典型的无监督学习算法，在介绍K均值算法之前，我们先介绍什么是无监督学习，它着重于发现数据本身的特点。无监督学习不需要对数据进行标记，它的作用之一划分数据的“群落”，此外他还可以寻找“离群”的样本；对于特征维度特别高的数据样本，我们同样可以通过无监督学习进行降维，保留最具有区分度的原始特征，这些都是在海量数据处理中十分实用的技术。

二、K均值算法介绍：

K均值是一种聚类算法，该方法要求我们预先设定聚类的个数，然后不断更新聚类中心，经过几轮这样的迭代，最后的目标是要让所有数据点到其所数聚类中心距离的平方和趋于稳定。

三：K均值算法步骤：

(1):随机设K个特征空间的点作为聚类的初始中心；

(2):对于每一条数据，从K个聚类中心寻找距离最近的一个，并且把该数据标记为从属于这个聚类中心；

(3):在所有数据都被标记过聚类中心后，根据这些数据新分类的类簇，重新计算聚类中心，也就是那个点到所有点的距离最小；

(4):如果一轮下来，所有数据点从属的聚类中心与上一次分配的类簇没有变化，那么迭代可以停止；否则回到步骤 2 继续循环。

四、K-Means 算法的缺点：

(1)聚类的个数在开始就要设定；

(2)聚类的结果取决于开始设定的聚类中心；

(3)对异常值很敏感；

(4)该算法不能保证找到一个全局最优解，因为它经常陷入局部最优解。

五、总结：

K均值是一种经典并且十分容易理解的聚类算法，关于聚类算法还有很多，它们的思想类似，区别多数在于聚类中心点的初始和变化规则，有兴趣的可以自己深入了解。另外，我在我的github上用python实现了一个k均值的小示例，感兴趣的可以看一下。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习笔记四：K-Means算法

一、无监督学习介绍：在K均值算法是一种典型的无监督学习算法，在介绍K均值算法之前，我们先介绍什么是无监督学习，它着重于发现数据本身的特点。无监督学习不需要对数据进行标记，它的作用之一划分数据的“群落”，此外他还可以寻找“离群”的样本；对于特征维度特别高的数据样本，我们同样可以通过无监督学习进行降维，保留最具有区分度的原始特征，这些都是在海量数据处理中十分实用的技术。二、K均值算法介绍...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。