香农信息量:
只考虑连续型随机变量的情况。设p为随机变量X的概率分布,即p(x)为随机变量X在X=x处的概率密度函数值,随机变量X在x处的香农信息量定义为:
其中对数以2为底,这时香农信息量的单位为比特。香农信息量用于刻画消除随机变量X在x处的不确定性所需的信息量的大小。如随机事件“中国足球进不了世界杯”不需要多少信息量(比如要不要多观察几场球赛的表现)就可以消除不确定性,因此该随机事件的香农信息量就少。再比如“抛一个硬币出现正面”,要消除它的不确定性,通过简单计算,需要1比特信息量,这意味着随机试验完成后才能消除不确定性。
可以近似地将不确定性视为信息量。一个消息带来的不确定性大,就是带来的信息量大。比如,带来一个信息:x=sun raise in east,其概率p(x)=1,信息量视为0。
带来另一个信息:y=明天有一个老师要抽查作业------带来了很多不确定性——8个老师,其中一个要抽查,另外7个不抽查,那么就值得我去思索判断推理这其中的信息了------高不确定性,高信息量。
信息熵:
刚才定义了随机变量在一个点处的香农信息量,那么如何衡量随机变量X(或整个样本空间)的总体香农信息量呢?下面就要引出随机变量X的信息熵的概念,或概率分布p的信息熵。信息熵H(p)是香农信息量-logp(x)的数学期望,即所有X=x处的香农信息量的和,由于