1.聚类是什么,与分类有何不同
聚类是将样本划分为多个类的过程,与分类不同,聚类是不清楚要分成哪几类的。
2.K-means聚类算法
步骤
1.确定需要聚几个类(簇),确定k的值。根据样本指标的不同决定是否要标准化数据。(无论哪个聚类都需要检查是否需要标准化)
2.随机选择k个数据对象作为聚类中心(不一定是样本点)
3.计算各样本点到各聚类中心的距离,并把他们划分到距离最近的聚类中心所属的那一类
4.聚类中心改变,成为新的类
重复3.4两个步骤,直到完成规定的迭代次数或者中心不再改变(收敛)为止
缺点:
1.k需要自定
2.易受初始选择的聚类中心影响,更换初始的聚类中心对结果影响大
3.易受特殊值点的影响,如果样本点有特殊值,对聚类中心影响大
改进:
K-means++算法
原则:
初始的聚类中心相隔尽可能远
步骤
1.随机选取一个样本作为聚类中心
2.计算每个样本点与距离其最近的那个聚类中心的距离,这个距离越大,它被选为新聚类中心的概率越大,然后根据概率用轮盘法抽取下一个样本点做聚类中心
3.重复上一步骤,直到选出k个聚类中心。选出了初始点就可以使用传统的K-means算法了
建模操作在SPSS的分析-分类-K均值聚类
聚类的k完全靠个人试,多少好建模好说明用哪个
对于样本的各项指标量纲不同可以进行标准化
3.系统聚类算法
思