链接:https://www.zhihu.com/question/30828247/answer/61924989
来源:知乎
以下用I(a)表示a事件发生的信息量
有两个事件a,b,如果其中一条有更小的概率发生,那么我们认为它发生会传递更大的信息量即:
1、 0<p(a)<p(b)<1, 则 I(a)>I(b)
如果一个事件a发生概率趋于0,那么我们认为它发生时有趋于无穷大的信息量,因为这个消息会刷新世界观即:
2、p(a)=0, 则 I(a)--> infinity
如果一个事件a发生概率为1,那么它发生了,我们觉得理所当然,完全没有信息量,即
3、p(a)=1, 则 I(a)=0
人们认为两个独立事件的概率相互独立,同时联合信息量应该等于他们各自信息量之和,因为人们分别从其中得到信息,即:
4、p(a,b)=p(a)p(b),则 I(a,b)=I(a)+I(b)
在数学上可以证明满足以上1,2,3,4的信息函数一定有以下形式(充分且必要):
对于上式,我们也可以这样理解:
1、2、3:当我们被告知一个极不可能发生的事情发生了,那我们就接收到了更多的信息;而当我们观测到一个非常常见的事情发生了,那么我们就接收到了相对较少的信息量。因此信息的量度应该依赖于概率分布,所以说信息量I(x)的定义应该是概率的单调函数,且是单调递减函数,即自变量是P,因变量是I。
4:假设两个随机变量和
是相互独立的,那么分别观测两个变量得到的信息量应该和同时观测两个变量的信息量是相同的,即:I(x,y)=I(x)+I(y)。而从概率上来讲,两个独立随机变量就意味着p(x,y)=p(x)p(y)。由于信息量依赖于概率分布,即由p(x,y)应该可以得到I(x,y),而唯一能够满足由乘法公式变为加法公式的函数即为
函数,说明I和P之间存在着一个log转换,才能使两者的等式都成立。因此一个随机变量发生所产生的的信息量可以定义为:
这里 log 的底数是大于1的都可以。一般下我们考虑以2为底的log函数,这样就能将p(a)=1/2, 获得的信息函数 I(a)=1 bit,意味着一个以一半概率发生的事件,我们用“是”,“否”这样1bit的码来记录。
以上我们解释了信息函数I,然后我们解释信息熵:
我们将上面的h(x)称为香农信息量,则熵的本质就是对香农信息量()的期望(p越小,信息量越大)。可以理解为对于一个离散随机变量X,我们想要求它发生各种情况(X等于各个值)时所产生信息量的“平均值”,这个平均信息量我们定义为这个随机变量的信息熵,所以熵表示为:
总而言之,信息熵评价的是随机变量X等于不同值时所产生不同信息量的平均值(切记平均),即平均信息量。熵的最小单位是bit(binary digit即二进制数位的缩写,中文翻译为“位”)。我们也可以把熵看做为为了表示随机变量的这种不确定性,我们所需要bit位,举个例子:
另外熵值越大,随机变量的不确定性就越大,参见李航《统计学习方法》P60