聚类模型(清风数模笔记)

1.聚类是什么,与分类有何不同

聚类是将样本划分为多个类的过程,与分类不同,聚类是不清楚要分成哪几类的。

2.K-means聚类算法

步骤

1.确定需要聚几个类(簇),确定k的值。根据样本指标的不同决定是否要标准化数据。(无论哪个聚类都需要检查是否需要标准化)

2.随机选择k个数据对象作为聚类中心(不一定是样本点)

3.计算各样本点到各聚类中心的距离,并把他们划分到距离最近的聚类中心所属的那一类

4.聚类中心改变,成为新的类

重复3.4两个步骤,直到完成规定的迭代次数或者中心不再改变(收敛)为止

缺点:

1.k需要自定

2.易受初始选择的聚类中心影响,更换初始的聚类中心对结果影响大

3.易受特殊值点的影响,如果样本点有特殊值,对聚类中心影响大

改进:

K-means++算法

原则:

初始的聚类中心相隔尽可能远

步骤

1.随机选取一个样本作为聚类中心

2.计算每个样本点与距离其最近的那个聚类中心的距离,这个距离越大,它被选为新聚类中心的概率越大,然后根据概率用轮盘法抽取下一个样本点做聚类中心

3.重复上一步骤,直到选出k个聚类中心。选出了初始点就可以使用传统的K-means算法了

建模操作在SPSS的分析-分类-K均值聚类

聚类的k完全靠个人试,多少好建模好说明用哪个

对于样本的各项指标量纲不同可以进行标准化

3.系统聚类算法

  • 1
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值