轮廓系数【python，机器学习，算法】

最新推荐文章于 2024-07-19 16:33:18 发布

学会聆听和表达

最新推荐文章于 2024-07-19 16:33:18 发布

阅读量1.1k

点赞数 15

分类专栏： python 算法机器学习文章标签：机器学习 python 算法

本文链接：https://blog.csdn.net/xiangfeng666/article/details/139904214

版权

python 同时被 3 个专栏收录

29 篇文章 2 订阅

订阅专栏

算法

27 篇文章 0 订阅

订阅专栏

机器学习

20 篇文章 0 订阅

订阅专栏

用途

使用轮廓系数评估聚类质量。聚类质量的评价方法，本质上，都是根据簇内和簇间的效果对比进行衡量。

定义

假设样本集合为 $S={a_1,a_2,a_3,...,a_n}$ ，该样划分成 4 个聚类 $G_1,G_2,G_3,G_4$ ，对于每个样本 $a_i$ ，

计算 $a_i$ 样本到 $a_i$ 所在聚类 $G_1$ 中的每个样本的距离，然后取平均值 $\bar{Ga_i}$ 。
分别计算 $a_i$ 到其他聚类的平均距离，取最小的平均值 $\bar{Gb_i}$
那么 $a_i$ 的聚类质量 $S(a_i)=\frac{\bar{Gb_i}-\bar{Ga_i}}{max(\bar{Gb_i},\bar{Ga_i})}$ 。
重复上述 1-3 步骤，对数据集中的每个对象计算轮廓系数然后取平均值作为聚类的质量度量。

下面的示例演示了如何使用轮廓系数计算聚类的质量：

import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.datasets import load_iris
from sklearn.metrics import silhouette_score

silhouettteScore = []
data = load_iris()
X = data.data
y = data.target
for i in range(2, 15):
    # 构建并训练模型
    kmeans = KMeans(n_clusters=i, random_state=123).fit(X)
    score = silhouette_score(X, kmeans.labels_)
    silhouettteScore.append(score)
plt.figure(figsize=(10, 6))
plt.plot(range(2, 15), silhouettteScore, linewidth=1.5, linestyle="-")
plt.show()

学会聆听和表达

关注

15
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
轮廓系数【python，机器学习，算法】

假设样本集合为Sa1a2a3anSa1a2a3...an，该样划分成 4 个聚类G1G2G3G4G1G2G3G4，对于每个样本aia_iai计算aia_iai样本到aia_iai所在聚类G1G_1G1中的每个样本的距离，然后取平均值Gaiˉ\bar{Ga_i}Gaiˉ。分别计算aia_iai到其他聚类的平均距离，取最小的平均值G。
复制链接

扫一扫