条件熵

信息熵的概念是由香农在信息论中提出的,目的是为了度量事件的不确定性。这是一个开创性的工作,把看不见摸不着的“不确定性”竟然量化了,这实在是太伟大了。现在,熵的概念已经应用到了各行各业,包括机器学习,人工智能。例如最大熵模型(maximum entropy model)的核心就是熵值的概念。
我们首先具体的通过符号定义一下熵的概念(以离散随机变量介绍)。假设离散随机变量 X 的概率分布是P(X),则其熵是:

H(P)=xP(x)logP(x)(1)
熵满足下面的不等式
0H(P)log|X|(2)
右边等式成立的条件是当 X 服从均匀分布。均匀分布代表了随便变量X的不确定性最大,因为此时对X几乎等于一无所知。

此时我们接着介绍条件熵。假设上面的X代表学生的身高(这里我们将身高离散化),用 Y 表示学生的体重(同样对体重离散化)。那么条件熵就表示为

H(Y|X)=x,yP˜(x)P(y|x)logP(y|x)(3)

具体怎么理解呢?假设我们先只考虑身高为1.62到1.64的学生,这一部分学生中体重的不确定可以计算为:
H(y|xi)=yP(y|xi)logP(y|xi)(4)

那么整个数据集的不确定性(也就是熵)就是各个分段身高对应的学生群体的不确定性之和。但是这里还要注意一个问题,身高的分布并不是均匀的,例如上面身高1.62到1.64的学生可能非常多,且这部分学生的体重不确定性最大,如果均匀对待这部分身高的学生,那么总体的不确定计算出来的就会偏小。因此我们还要考虑身高的分布,即 P˜(x) ,也就是考虑加权和,这样就得到了公式(3)。

已标记关键词 清除标记
相关推荐
©️2020 CSDN 皮肤主题: 大白 设计师:CSDN官方博客 返回首页