原理:
- 目标:将样本集合划分为 K 个互不相交的子集,每个子集代表一个聚类。
- 初始化:随机选择 K 个样本作为初始聚类中心。
- 迭代优化:重复以下步骤,直到收敛:
- 将每个样本分配到最近的聚类中心所在的类别中。
- 计算每个聚类中心的均值,作为新的聚类中心。
- 收敛条件:当聚类中心不再发生变化,或者变化很小,算法收敛。
数学公式:
- 样本表示:假设有 m 个样本,每个样本有 n 个特征,用
表示第 i 个样本,
∈
。
- 聚类中心表示:假设有 K 个聚类中心,用
表示第 k 个聚类中心,μ
∈