聚类:划分聚类(k-means、k-means||、层次聚类)+密度聚类

一、划分聚类:根据距离(相似度) 划分

 曼哈顿距离:距离很近情况下的近似计算;切比雪夫距离:某一维度距离特别大,其他维度距离都很近的情况下距离计算

大多数情况都用欧氏距离

 

1.1. k-means 

 解决初值敏感的算法思路:

主要思想:1)做一部分抽样,根据概率可以将原始样本稀疏化,剔除少数异常样本的影响(k-means||)选择初始簇心;2)k值从2开始,不断增加到k(二分k-means);3)对样本多的进行划分,或者对误差和SSE大的样本集继续划分二分k-means)

怎么缺点簇的数量k的算法思路:

怎么解决大规模数据集收敛速度的算法思路: 

 

实际过程中,一般用轮廓系数/api中的km.score(X) 来度量距离总和,其他的评估指标一般不用

 2、层次聚类

 

birch: 适合大数据集 

 

 二、密度聚类(适用于非凸函数)

 

 

 

 

 

 任意形状的数据的聚类

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值