聚类模型评估指标之外部方法

最新推荐文章于 2024-05-14 09:48:10 发布

VIP文章生信修炼手册

最新推荐文章于 2024-05-14 09:48:10 发布

阅读量1.8k

点赞数 3

文章标签：聚类人工智能数据分析机器学习编程语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43569478/article/details/117050607

版权

欢迎关注”生信修炼手册”!

聚类算法的理想结果是同一类别内的点相似度高，而不同类别之间的点相似度低。聚类属于无监督学习，数据没有标签，为了比较不同聚类模型的好坏，我们也需要一些定量的指标来进行评估。根式是否提供样本的标签信息，相关的指标可以分为以下两大类

1. 外部方法，外部方法指的是从外部提供数据的标签，比如通过专家认为定义类别，或者是本身就是有标签的数据，将标签拿掉之后做聚类

2. 内部方法，内部方法指的是不需要数据的标签，仅仅从聚类效果本身出发，而制定的一些指标

本文主要关注外部方法，常用的指标有以下几种

1. Purity

称之为纯度，公式如下

计算聚类正确的百分比，用每个簇内频数最高的样本类别作为正确的聚类，然后除以簇内的样本总数，通过一个例子来看下纯度的计算

整体的纯度就是(1/17)*(5+4+3）= 0.71, 从公式来看，纯度的值越高，聚类的性能越好，但是聚类的cluster个数越多，也会导致纯度值变高。所以无法直接使用纯度来表征聚类数量和聚类质量。

2. Normalized Mutual Information

简写为NMI, 称之为标准化互信息。首先来理解下互信息这个概念，互信息和熵是信息论的两个核心概念，互信息用于衡量两个信息之间的相关性，对于连个随机变量X和Y，互信息的公式如下

在概率论中, p(x, y)称之为联合概率，p(x), p(y)称之为边缘概率。互信息用于衡量其中一个变量对另一个变量不确定性减少的程度，下列推导证明了互信息和熵之间的关系

图示如下

两个变量之间的互信息，可以看做是边缘熵熵减去条件熵，如果两个变量完全独立，则互信息为零。对于算法聚类结果和外部标签，可以通过统计如下所示的表格，来计算互信息

理论上，互信息的值越大越好，可是其取值范围是没有上边界的。为了更好的比较不同聚类结果，提出了标准化互信息的概念，公式如下

将互信息的值归一化到0和1之间，这样就可以在不同数据集之间进行比较了。标准化互信息的值越接近1，聚类效果越好。

3. Adjusted mutual information

简写为AMI, 称之为调整互信息，公式如下

最低0.47元/天解锁文章

生信修炼手册

关注

3
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
聚类模型评估指标之外部方法

欢迎关注”生信修炼手册”!聚类算法的理想结果是同一类别内的点相似度高，而不同类别之间的点相似度低。聚类属于无监督学习，数据没有标签，为了比较不同聚类模型的好坏，我们也需要一些定量的指标来进...
复制链接

扫一扫

生信修炼手册 CSDN认证博客专家 CSDN认证企业博客

码龄6年

884: 原创

2万+: 周排名

181万+: 总排名

295万+: 访问

: 等级

1万+: 积分

3961: 粉丝

1503: 获赞

335: 评论

1万+: 收藏

私信

关注

热门文章

分类专栏

TCGA 1篇
转录组 27篇
circos 24篇

最新评论

校准曲线的绘制的小技巧
happyruth: 你好！请问虽然m指定了样本分组个数，但是重抽样后只出现了一个点的数值怎么办啊？（就是只有一个组的KM列和std.err列）
ConsensusClusterPlus，一步到位的一致性聚类！
yyyyyooolll: 请问tpm数据还需要进行归一化操作吗
使用ChIPseeker进行peak注释
m0_70501154: Error in tagHeatmap(tagMatrix, xlim = c(-3000, 3000)) : unused argument (xlim = c(-3000, 3000)) 报这个错是什么原因呀
使用maSigPro进行时间序列数据的差异分析
我不明白你明不明白: 请问这里导入的基因数据是otu还是相对丰度呢？
使用mafft进行多序列比对
J_xiaoyu97: 请教大神一个问题，我通过conda安装好mafft后，放入不了文件，会出现以下报错：/root/miniconda3/envs/DNA/bin/mafft: Cannot open C:\Users\jxy\Desktop\Data\0 raw data\16.fasta.，求教这是为什么呀？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。