k-modes聚类算法

最新推荐文章于 2025-05-22 00:16:56 发布

学习者的旅途

最新推荐文章于 2025-05-22 00:16:56 发布

阅读量1.7w

点赞数 15

分类专栏：聚类

本文链接：https://blog.csdn.net/xiaozhu_1024/article/details/103447713

版权

引言

之前介绍的K-means和k-medoids算法都是针对数据为数值型的聚类算法，计算样本间的距离采用的是欧式距离，所以如果数据变量是类别型的采用这两种算法，就需要先进行one-hot编码或者dummy coding。针对类别型变量的聚类，可以采用k-modes聚类算法。

k-modes算法

当数据变量为数值型时，可以采用k-modes算法进行聚类。因为该算法中计算的是样本间的汉明距离，如果变量取值不是数值，最好先进行LabelEncode，计算速度会更快。

k-modes算法步骤：
1.随机选取k个初始中心点；
2.针对数据集中的每个样本点，计算样本点与k个中心点的距离（这边计算的是汉明距离，为两个样本点不同的属性取值的个数），将样本点划分到离它最近的中心点所对应的类别中；
3.类别划分完成后，重新确定类别的中心点，将类别中所有样本各特征的众数作为新的中心点对应特征的取值，即该类中所有样本的众心；
4.重复步骤2 3，直到总距离（各个簇中样本与各自簇中心距离之和）不再降低，返回最后的聚类结果。

算法总结：
1）基于“众心”的聚类方法；
2）数据变量为类别型的聚类方法；
3）时间复杂度低于K-means和K-medoids聚类；

python实现

#加载所需模块
from kmodes import kmodes
import multiprocessing
import matplotlib.pyplot as plt
from sklearn.metrics import silhouette_score

#模型训练不同的类别数对应的SSE及模型
	def TrainCluster(df, start_k=2, end_k

最低0.47元/天解锁文章