互信息(Mutual Information)

标准化互信息(NMI)是用于聚类效果评估的内部方法,它在无标签数据上比较不同聚类模型。NMI将互信息归一化到0到1之间,值越接近1表示聚类效果越好。该指标可用于在不同数据集间进行比较。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Y 已知的情况下, 对 X时间熵(不确定性)降低的程度

I(X; Y) = H(X) - H(X|Y)

I(X;Y) = \sum_{y\in Y}\sum_{x\in X} p(x, y) log(\frac{p(x,y)}{p(x)p(y)})

p(x,y) : 联合概率分布

p(x), p(y) : 边缘概率分布

聚类属于无监督学习,数据没有标签,为了比较不同聚类模型的好坏,我们也需要一些定量的指标来进行评估。根式是否提供样本的标签信息,相关的指标可以分为以下两大类

1. 外部方法,外部方法指的是从外部提供数据的标签,比如通过专家认为定义类别,或者是本身就是有标签的数据,将标签拿掉之后做聚类

2. 内部方法,内部方法指的是不需要数据的标签,仅仅从聚类效果本身出发,而制定的一些指标

Normalized Mutual Information (NMI)

标准化互信息

理论上,互信息的值越大越好,可是其取值范围是没有上边界的。为了更好的比较不同聚类结果,提出了标准化互信息的概念,公式如下

NMI(X, Y) = \frac{2\times I(X;Y)}{H(X) + H(Y)}

将互信息的值归一化到0和1之间,这样就可以在不同数据集之间进行比较了。标准化互信息的值越接近1,聚类效果越好。

应用: 

利用互信息比较不同的聚类结果_tyh70537的博客-CSDN博客

聚类模型评估指标之外部方法 - 腾讯云开发者社区-腾讯云

reference: 

什么是「互信息」? - 知乎

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值