k-modes聚类算法

引言

之前介绍的K-means和k-medoids算法都是针对数据为数值型的聚类算法,计算样本间的距离采用的是欧式距离,所以如果数据变量是类别型的采用这两种算法,就需要先进行one-hot编码或者dummy coding。针对类别型变量的聚类,可以采用k-modes聚类算法。

k-modes算法

当数据变量为数值型时,可以采用k-modes算法进行聚类。因为该算法中计算的是样本间的汉明距离,如果变量取值不是数值,最好先进行LabelEncode,计算速度会更快。

k-modes算法步骤:
1.随机选取k个初始中心点;
2.针对数据集中的每个样本点,计算样本点与k个中心点的距离(这边计算的是汉明距离,为两个样本点不同的属性取值的个数),将样本点划分到离它最近的中心点所对应的类别中;
3.类别划分完成后,重新确定类别的中心点,将类别中所有样本各特征的众数作为新的中心点对应特征的取值,即该类中所有样本的众心;
4.重复步骤2 3,直到总距离(各个簇中样本与各自簇中心距离之和)不再降低,返回最后的聚类结果。

算法总结:
1)基于“众心”的聚类方法;
2)数据变量为类别型的聚类方法;
3)时间复杂度低于K-means和K-medoids聚类;

python实现

#加载所需模块
from kmodes import kmodes
import multiprocessing
import matplotlib.pyplot as plt
from sklearn.metrics import silhouette_score
#模型训练不同的类别数对应的SSE及模型
	def TrainCluster(df, start_k=2, end_k=20):
    print('training cluster')
    K = []
    SSE = []
    silhouette_all = []
    models = [] #保存每次的模型
    for i in range(start_k, end_k):
        kmodes_model = kmodes.KModes(n_clusters=i, n_jobs=multiprocessing.cpu_count())
        kmodes_model.fit(df)
        a = metrics.silhouette_score(df, kmodes_model.labels_, metric='hamming')
        SSE.append(kmodes_model.cost_)  # 保存每一个k值的SSE值
        K.append(i)
        print('{} Means SSE loss = {}'.format(i, kmodes_model.cost_))
        silhouette_all.append(a)
        print('这个是k={}次时的轮廓系数{}:'.format(i,a))
        models.append(kmodes_model) #保存每个k值对应的模型

    return(K,SSE,silhouette_all,models)

通过指定不同的类别数k,得到不同的k值对应的SSE值(SSE值即各类别中样本点到中心点的距离之和),进而构建不同的k-modes模型。

#用肘部法则来确定最佳的K值
train_cluster_res = TrainCluster(data,start_k=2, end_k=20)
K = train_cluster_res[0]
SSE = train_cluster_res[1]
plt.plot(K, SSE, 'bx-')
plt.xlabel('聚类类别数k')
plt.ylabel('SSE')
plt.xticks(K)
plt.title('用肘部法则来确定最佳的k值')
plt.show()

不同的k值与SSE值得对应关系,最终画出一条曲线,这条曲线相当于人的手肘,而肘部对应的点就是最佳的k取值点,即曲线的拐点

#用轮廓系数确定最佳的k值
score = train_cluster_res[2]
#确定了最佳的k值后
models = train_cluster_res[3]
best_model = models[K.index(k)]

#模型评价,计算轮廓系数
silhouette_score = silhouette_score(data,best_model.labels_,metric='hamming')
  • 13
    点赞
  • 113
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值