k-modes聚类算法

引言

之前介绍的K-means和k-medoids算法都是针对数据为数值型的聚类算法,计算样本间的距离采用的是欧式距离,所以如果数据变量是类别型的采用这两种算法,就需要先进行one-hot编码或者dummy coding。针对类别型变量的聚类,可以采用k-modes聚类算法。

k-modes算法

当数据变量为数值型时,可以采用k-modes算法进行聚类。因为该算法中计算的是样本间的汉明距离,如果变量取值不是数值,最好先进行LabelEncode,计算速度会更快。

k-modes算法步骤:
1.随机选取k个初始中心点;
2.针对数据集中的每个样本点,计算样本点与k个中心点的距离(这边计算的是汉明距离,为两个样本点不同的属性取值的个数),将样本点划分到离它最近的中心点所对应的类别中;
3.类别划分完成后,重新确定类别的中心点,将类别中所有样本各特征的众数作为新的中心点对应特征的取值,即该类中所有样本的众心;
4.重复步骤2 3,直到总距离(各个簇中样本与各自簇中心距离之和)不再降低,返回最后的聚类结果。

算法总结:
1)基于“众心”的聚类方法;
2)数据变量为类别型的聚类方法;
3)时间复杂度低于K-means和K-medoids聚类;

python实现

#加载所需模块
from kmodes import kmodes
import multiprocessing
import matplotlib.pyplot as plt
from sklearn.metrics import silhouette_score
#模型训练不同的类别数对应的SSE及模型
	def TrainCluster(df, start_k=2, end_k
### Kmodes聚类算法的工作原理 Kmodes 是一种专门用于处理离散型数据的聚类方法,适用于分类变量的数据集。它扩展了经典的 KMeans 算法以适应非数值型特征的情况。以下是其核心工作原理: #### 初始化阶段 在初始阶段,随机选择 \( k \) 个样本作为质心(centroids),这些质心代表各个簇的核心点[^1]。 #### 距离度量 由于 KModes 处理的是类别型数据而非连续型数据,因此无法使用欧几里得距离来衡量相似性。取而代之的是采用 **汉明距离 (Hamming Distance)** 来计算两个样本之间的差异程度。对于任意两个样本 \( x_i \) 和 \( x_j \),它们的距离定义为两者对应维度上不相同的属性数量[^2]。 #### 迭代优化过程 1. 将每个样本分配到最近的簇中,依据是该样本与当前各簇质心间的最小汉明距离。 2. 更新每组内的新质心:通过统计每一维上的众数(mode)重新设定新的质心位置[^4]。 此两步交替执行直至满足停止条件——要么达到预设的最大迭代次数,要么前后两次更新后的质心不再发生变化为止。 ### 应用场景分析 鉴于 KModes 的特性主要针对定性资料设计而成,故常见应用于如下领域: - 市场营销中的客户细分研究,当涉及偏好选项如颜色喜好、品牌忠诚度等名义尺度测量指标时尤为适用; - 社交媒体数据分析,比如用户标签或者兴趣爱好分群等领域也常会运用此类技术来进行探索式挖掘活动;另外还有基因序列比较等方面也可能需要用到类似的思路去寻找模式匹配关系等等[^3]。 ```python from kmodes.kmodes import KModes # 定义KModes模型并训练 km = KModes(n_clusters=3, init='Huang', n_init=5, verbose=1) clusters = km.fit_predict(data) # 查看最终形成的三个中心点的具体情况 print(km.cluster_centroids_) ```
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值