机器学习 | 聚类评估指标

最新推荐文章于 2024-07-03 17:33:36 发布

X1AO___X1A

最新推荐文章于 2024-07-03 17:33:36 发布

阅读量5k

点赞数 2

分类专栏：机器学习基础 # 聚类算法无监督学习文章标签：机器学习无监督学习聚类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45488228/article/details/100549820

版权

文章目录

1. 聚类评估指标
参考文献

相关文章：

机器学习 | 目录

机器学习 | 距离计算

无监督学习 | KMeans与KMeans++原理

无监督学习 | KMeans之Skleaen实现：电影评分聚类

1. 聚类评估指标

Clustering performance evaluation

聚类性能度量亦称聚类“有效性指标”（validity index）。与监督学习中的性能度量相似，对聚类结果，我们需通过某种性能度量来评估其好坏；另一方面，若明确了最终将要使用的性能度量，则可直接将其作为聚类过程的优化目标，从而更好地得到符合要求的聚类结果。

聚类是将样本集D划分为若干互不相关的子集，即样本簇（类），而我们又希望聚类结果的“簇内相似度”（intra-cluster similarity）高且“簇间相似度”（intra-cluster similarity）低。

聚类性能度量大致有两类，一类是将聚类结果与某个“参考模型”（reference model，样本含标签的）进行比较，称为“外部指标”（external index）;另一类是直接考察聚类结果而不利用任何参考模型，称为“内部指标”（internal index）。

对数据集 $D=\{x_1,x_2,\cdots,x_n\}$ ，假定通过聚类给出的 $k$ 个簇，划分为 $C=\{C_1,C_2,\cdots,C_k\}$ ，参考模型给出的 $s$ 个簇划分为 $C^*=\{C_1^*,C_2^*,\cdots,C_s^*\}$ 。相应地，令 $\lambda$ 与 $\lambda^*$ 分别表示 $C$ 与 $C^*$ 对应的簇标记向量。我们将样本两两配对考虑，定义：

$a=|SS|,\quad SS=\{(x_i,x_j)| \lambda_i=\lambda_j,\lambda_i^*=\lambda_j^*,i<j\} \tag{1}$

$b=|SD|,\quad SD=\{(x_i,x_j)| \lambda_i=\lambda_j,\lambda_i^*\neq\lambda_j^*,i<j\} \tag{2}$

$c=|DS|,\quad DS=\{(x_i,x_j)| \lambda_i\neq\lambda_j,\lambda_i^*=\lambda_j^*,i<j\} \tag{3}$

$d=|DD|,\quad DD=\{(x_i,x_j)| \lambda_i\neq\lambda_j,\lambda_i^*\neq\lambda_j^*,i<j\} \tag{4}$

其中集合 $S S$ 表示点 $i$ 和点 $j$ 在聚类结果中处于同一个簇，而实际上这两个点也是处于同一个簇的所有点的集合，相当于混淆矩阵中的 TP；

集合 $S D$ 表示点 $i$ 和点 $j$ 在聚类结果中处于同一个簇，而实际上这两个点不处于同一个簇的所有点的集合，相当于混淆矩阵中的 FP，…。

由于每个样本对 $x_i,x_j)(i<j)$

最低0.47元/天解锁文章

关注

2
点赞
踩
39

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

X1AO___X1A CSDN认证博客专家 CSDN认证企业博客

码龄5年

43: 原创

5万+: 周排名

77万+: 总排名

11万+: 访问

: 等级

1653: 积分

66: 粉丝

140: 获赞

45: 评论

694: 收藏

私信

关注

热门文章

分类专栏

最新评论

PyPDF2 | 利用 Python 实现 PDF 分割
qq_64831425: from PyPDF2 import PdfReader, PdfWriter infile = r"" outfile = r"" pdf_input_left = PdfReader(open(infile, 'rb')) pdf_input_right = PdfReader(open(infile, 'rb')) pdf_output = PdfWriter() page = pdf_input_left.pages[0] width = page.mediabox.width height = page.mediabox.height page_count = len(pdf_input_left.pages) for i in range(page_count): # left page page_left = pdf_input_left.pages[0] page_left.mediabox.lower_left = (0, 0) page_left.mediabox.lower_right = (width/2, 0) page_left.mediabox.upper_left = (0, height) page_left.mediabox.upper_right = (width/2, height) pdf_output.add_page(page_left) # right page page_right = pdf_input_right.pages[0] page_right.mediabox.lower_left = (width/2, 0) page_right.mediabox.lower_right = (width, 0) page_right.mediabox.upper_left = (width/2, height) page_right.mediabox.upper_right = (width, height) pdf_output.add_page(page_right) pdf_output.write(open(outfile, 'wb')) 最新版的
无监督学习 | 层次聚类之凝聚聚类原理及Sklearn实现
SZX0311: 离差平方和公式明白，我看了原文，文中xi是一个得分，但是这里算距离时，ess公式中的xi是什么？
无监督学习 | KMeans之Sklearn实现：电影评分聚类
布娜呐:
SQLite | 数据库设计与 Creat Table 语句
学无止境勤且思: 外键可以嵌套么？比如A表K1作为B表P2的外键，B表P2作为C表T3的外键，报错：“create table failed.unknown column "BU_Data" in foreign key definition”
SQLite | SQLite 与 Pandas 比较篇之一
sleeping_dogs: 性能差距如何，据说sqlite远超pandas

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。