聚类(1)-- k-means clustering

k-means聚类是一种无监督学习算法,通过迭代优化找到使得数据点在欧氏距离下到各自cluster中心距离之和最小的聚类。算法的目标是最大化within-cluster scatter matrix的迹,等价于最小化均方误差和。最终聚类中心为每个cluster的数据点均值。
摘要由CSDN通过智能技术生成

作为一种无监督数据分析技术,聚类算法不需要提供导师信息,通过数据间的统计相关特性,采用迭代等方法实现相比不同cluster内部数据点间的相似程度,相同cluster数据点之间的相似性更高。


作为最传统的聚类算法,k-means试图迭代计算一组聚类中心,使得在欧氏距离下,所有数据点到各自所在cluster的聚类中心的距离和最小,也就是使得within-cluster scatter matrix的trace最小,详细说明如下(由于不能使用公式编辑器,下文中公式看起来比较费劲,还请谅解哦)。


其中within-cluster scatter matrix如下定义:

Sw = sum(Si),i = 1,2,K,其中K为cluster的个数,Si是每个cluster的scatter matrix,如下:

Si = sum((x-mi)(x-mi)')(对所有x求和), x是第i个cluster中的数据点,(x-mi)'表示(x-mi)的转置,mi为第i个cluster的均值。


又有:total scatter matix St = sum((x-m)(x-m)')(对所有x求和),x是数据集中X的数据点,m是所有数据点均值,即 m = sum(x)/n (对所有x求和)= sum(ni*mi)/n(对所有cluster求和),其中ni表示第i个cluster中数据点个数。


between-cluster matrix Sb = sum(ni*

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值