聚类算法---Kmeans算法、K均值算法

提示:这些是自己整理 可以借鉴 也可能存在错误 欢迎指正


前言

k-means算法是非监督聚类最常用的一种方法,因其算法简单和很好的适用于大样本数据,广泛应用于不同领域,本文详细总结了k-means聚类算法原理。

聚类算法:是一种典型的无监督学习算法,主要用于将相似的样本自动归到一个类别中。

聚类算法与分类算法最大的区别是:

  • 聚类算法是无监督的学习算法
  • 分类算法属于监督的学习

在聚类算法中根据样本之间的相似性,将样本划分到不同的类别中,对于不同的相似度计算方法,会得到不同的聚类结果,常用的相似度计算方法有欧式距离法


一、K均值是什么?

示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。
算法思想:

数据之间的相似度与它们之间的欧式距离成反比,根据数据之间的欧式距离将数据分成k类

实例图:
在这里插入图片描述

二、使用步骤

算法流程

  1. 首先随机生成k个聚类中心点。

  2. 根据已有的聚类中心点,将数据分成k类。分类的原则是数据离哪个聚类中心最近,它就被分为哪一类。这一步是EM算法中的Estep。

  3. 根据分类结果,重新计算每个聚类的中心点。这一步是EM算法中的M step。

  4. 不断重复上述的E step和M step,直到聚类中心收敛(聚类中心不再变动)。

在这里插入图片描述

小结

K-means优点:

原理简单(靠近中心点) ,实现容易

聚类效果中上(依赖K的选择)

空间复杂度o(N)时间复杂度o(IKN) (N为样本点个数,K为中心点个数,I为迭代次数)

缺点:

对离群点, 噪声敏感 (中心点易偏移)

很难发现大小差别很大的簇及进行增量计算

结果不一定是全局最优,只能保证局部最优(与K的个数及初值选取有关)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值