3、详细解释
3.1基于划分的聚类方法:
基本思想:给定N个对象的数据集,根据聚类方法,划分为 K个划分,每个划分表示一个聚类,每一个对象划分到一个簇中, K<=N, 聚类将数据划分为K个簇,且K个划分满足:
每个簇至少包含一个对象 每个对象属于且仅属于一个簇
给定划分的数目K,基于划分的方法,首先构建一个初始划分,后采用迭代的重定位的方法尝试在划分间移动对象来改进划分的质量。
一个好的划分一般准则是 :在同一聚类中的对象之间尽可能‘接近’或者相关,不同聚类对象之间尽可能‘远离’,或不相关。
Kmeans (K平均,K均值) Kmeans 对初始值是敏感的
随机选择K个对象,作为初始的聚类中心,对剩余的对象根据其与各个簇中心的距离,将其赋予给距离最近的簇,然后计算每个簇的平均值,将这个平均值再作为聚类中心,不断重复,知道每个簇的聚类中心不再变化为止(准则函数收敛为止)
准则函数 常常使用 最小平方误差MSE Minimum Squared-error
优点 :1、聚类问题的经典算法&