机器学习笔记四:K-Means算法

一、无监督学习介绍:

       在K均值算法是一种典型的无监督学习算法,在介绍K均值算法之前,我们先介绍什么是无监督学习,它着重于发现数据本身的特点。无监督学习不需要对数据进行标记,它的作用之一划分数据的“群落”,此外他还可以寻找“离群”的样本;对于特征维度特别高的数据样本,我们同样可以通过无监督学习进行降维,保留最具有区分度的原始特征,这些都是在海量数据处理中十分实用的技术。

二、K均值算法介绍:

       K均值是一种聚类算法,该方法要求我们预先设定聚类的个数,然后不断更新聚类中心,经过几轮这样的迭代,最后的目标是要让所有数据点到其所数聚类中心距离的平方和趋于稳定。

三:K均值算法步骤:

      (1):随机设K个特征空间的点作为聚类的初始中心;

      (2):对于每一条数据,从K个聚类中心寻找距离最近的一个,并且把该数据标记为从属于这个聚类中心;

      (3):在所有数据都被标记过聚类中心后,根据这些数据新分类的类簇,重新计算聚类中心,也就是那个点到所有点            的距离最小;

      (4):如果一轮下来,所有数据点从属的聚类中心与上一次分配的类簇没有变化,那么迭代可以停止;否则回到步骤             2 继续循环。

四、K-Means 算法的缺点:

     (1)聚类的个数在开始就要设定;

     (2)聚类的结果取决于开始设定的聚类中心;

     (3)对异常值很敏感;

     (4)该算法不能保证找到一个全局最优解,因为它经常陷入局部最优解。

五、总结:

   K均值是一种经典并且十分容易理解的聚类算法,关于聚类算法还有很多,它们的思想类似,区别多数在于聚类中心点的初始和变化规则,有兴趣的可以自己深入了解。另外,我在我的github上用python实现了一个k均值的小示例,感兴趣的可以看一下。



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值