K-means算法-综合整理

A 主要流程

a 随机初始化k个点作为簇质心
b 计算每个点与质心距离(常用欧式距离和余弦距离),并将其分配给最近 的质心对应的簇中
c 重新计算每个簇的质心,更新为所有点的平均值
d 反复迭代b-c步骤,直到达到某个终止条件
1. 达到指定迭代次数
2. 簇心不再发生明显变化,即收敛
3. 最小误差平方和SSE

B 缺陷

a K值需要预先给定,不同K值得到的结果不一样
b 对初始的簇中心敏感,不同选取方式会有不同结果,容易陷入局部最优[[二分K均值算法]]
c 对异常值敏感
d 样本只能归为一类,不适合多分类任务
e 不适合太离散的分类,样本类别不平衡的分类,非凸形状的分类

C K数量的选取

a 手肘法
给K定一个范围,分贝计算每个K值对应的SSE(最小化平方误差E),然后将每一个K值对应的SSE画出来,选取拐弯最大的拐点
在这里插入图片描述

b Gap statistic法
在这里插入图片描述

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值