k-prototypes聚类算法

最新推荐文章于 2024-04-19 16:26:52 发布

学习者的旅途

最新推荐文章于 2024-04-19 16:26:52 发布

阅读量1.4w

点赞数 8

分类专栏：聚类

本文链接：https://blog.csdn.net/xiaozhu_1024/article/details/103448059

版权

聚类专栏收录该内容

4 篇文章 4 订阅

订阅专栏

引言

数据变量为单一的数值型和单一的类别型的聚类算法之前都已经介绍过了，但是实际的数据大多数是数值型和类别型变量混合。针对混合型变量的数据，采用k-prototypes算法进行聚类。

k-prototypes算法

k-prototypes算法在聚类的过程中，是将数据的数值型变量和类别型变量拆开，分开计算样本间变量的距离，再将两者相加，视为样本间的距离。
k-prototypes聚类的准则就是使用一个合适的损失函数去度量数值型和分类变量对原型的距离；

k-prototypes算法步骤：
1.随机选取k个初始原型(中心点)；
2.针对数据集中的每个样本点，计算样本点与k个原型的距离（数值型变量计算欧氏距离，类别型变量计算汉明距离），将样本点划分到离它最近的中心点所对应的类别中；
3.类别划分完成后，重新确定类别的原型，数值型变量样本取值的均值作为新的原型的特征取值，类别型变量样本取值的众数作为新的原型的特征取值；
4.重复步骤2 3，直到没有样本改变类别，返回最后的聚类结果。

算法总结：
1）基于“众心”和“质心”的聚类方法；
2）数值型变量和类别型变量混合数据聚类方法。

python实现

#加载所需模块
import numpy as np
import pandas as pd
from kmodes.kprototypes import KPrototypes
%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn import preprocessing

#数据预处理
data_num = data[['aa','bb']]
data_cat = data[['cc','dd']]
le = preprocessing.LabelEncoder()
data_cat = data_cat.apply(le.fit_transform) #类别型变量如果不是数值，需要先做LabelEncode
data[columns_to_normalize] = data[columns_to_normalize].apply(lambda x: (x - x.mean()) / np.std(x)) #数值型变量做标准化处理，类别型变量如果不是数值，需要先做LabelEncode
data = data.values #转化为数组

#模型训练不同的类别数对应的SSE及模型
def TrainCluster(df, model_name=None, start_k=2, end_k=20):
    print('training cluster')
    #df = StandardScaler().fit_transform(df) #数据标准化
    K = []
    SSE = []
    silhouette_all=[]
    models = [] #保存每次的模型
    for i in range(start_k, end_k):
        kproto_model = KPrototypes(n_clusters=i, n_jobs=multiprocessing.cpu_count())
        kproto_model.fit(df,categorical=cate_index)
        SSE.append(kproto_model.cost_)  # 保存每一个k值的SSE值
        K.append(i)
        print('{}-prototypes SSE loss = {}'.format(i, kproto_model.cost_))
        models.append(kmeans_model) #保存每个k值对应的模型

    return(K,SSE,models)

#用肘部法则来确定最佳的K值
train_cluster_res = TrainCluster(data,model_name=None, start_k=2, end_k=20 )
K = train_cluster_res[0]
SSE = train_cluster_res[1]
plt.plot(K, SSE, 'bx-')
plt.xlabel('聚类类别数k')
plt.ylabel('SSE')
plt.xticks(K)
plt.title('用肘部法则来确定最佳的k值')
plt.show()

#确定了最佳的k值后
models = train_cluster_res[2]
best_model = models[K.index(k)]

学习者的旅途

关注

8
点赞
踩
93

收藏

觉得还不错? 一键收藏
14
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录