A 主要流程
a 随机初始化k个点作为簇质心
b 计算每个点与质心距离(常用欧式距离和余弦距离),并将其分配给最近 的质心对应的簇中
c 重新计算每个簇的质心,更新为所有点的平均值
d 反复迭代b-c步骤,直到达到某个终止条件
1. 达到指定迭代次数
2. 簇心不再发生明显变化,即收敛
3. 最小误差平方和SSE
B 缺陷
a K值需要预先给定,不同K值得到的结果不一样
b 对初始的簇中心敏感,不同选取方式会有不同结果,容易陷入局部最优[[二分K均值算法]]
c 对异常值敏感
d 样本只能归为一类,不适合多分类任务
e 不适合太离散的分类,样本类别不平衡的分类,非凸形状的分类
C K数量的选取
a 手肘法
给K定一个范围,分贝计算每个K值对应的SSE(最小化平方误差E),然后将每一个K值对应的SSE画出来,选取拐弯最大的拐点
b Gap statistic法