初学ML笔记N0.6——聚类方法

聚类的定义


  • 聚类就是按数据的相似性,将其划分为多个类别,从而使内别内的相似度大,内别间的相似度小。
  • 它是一种无监督学习方式,即不需要先给定样本进行学习。

相似度的度量方式


聚类的目的就是为了将相似样本的样本分到同一个类别里。那么,首先要考虑的便是如何度量这个相似。下面给出几种常见的度量方式:

图片

闵可夫斯基距离里,当p=2时,便是我们熟知的欧氏距离,可见,它的适用范围属于能在坐标轴里描绘的点的样本集。
关于各种相似性的度量,可参考下面这篇博客的详细解释:

http://www.cnblogs.com/heaad/archive/2011/03/08/1977733.html

K-means算法


算法首先随机地选择K个对象,每个对象初始地代表了一个簇的平均值或中心。对剩余的每个对象根据其与各个簇中心的距离,将其赋给最近的簇。然后重新计算出每个簇的中心,然后继续将每个点赋给最近的簇。这个过程不断重复,直到准则函数收敛。
其中,准则函数常常使用最小平方误差函数MSE,其定义如下:

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值