一、划分聚类:根据距离(相似度) 划分
曼哈顿距离:距离很近情况下的近似计算;切比雪夫距离:某一维度距离特别大,其他维度距离都很近的情况下距离计算
大多数情况都用欧氏距离
1.1. k-means
解决初值敏感的算法思路:
主要思想:1)做一部分抽样,根据概率可以将原始样本稀疏化,剔除少数异常样本的影响(k-means||)选择初始簇心;2)k值从2开始,不断增加到k(二分k-means);3)对样本多的进行划分,或者对误差和SSE大的样本集继续划分二分k-means)
怎么缺点簇的数量k的算法思路:
怎么解决大规模数据集收敛速度的算法思路:
实际过程中,一般用轮廓系数/api中的km.score(X) 来度量距离总和,其他的评估指标一般不用
2、层次聚类
birch: 适合大数据集
二、密度聚类(适用于非凸函数)
任意形状的数据的聚类