今日偶得 信息熵 一概念,因此写一下自己的学习心得。
信息熵是 1948年香农提出来的,用以解决对信息的量化问题。香农从热力学引入“熵”的概念,热力学中的“熵” 是表示分子状态混乱程度的物理量,熵越大,分子状态越稳定;在信息学上,“熵”表示信息的不确定性,熵越大,信息的不确定性越大。
如何理解“信息熵” 与 信息的不确定性的关系?大家都知道NBA,每一场比赛前,都会对这场比赛的结果进行猜测。如果是“伪球迷”,连乔丹和科比都不知道的话,那么他对比赛结果肯定难以判断,只能讲各有50%的胜算,那么对于此人来说,比赛的信息量是很大的,因为他对这场比赛毫无了解,比赛结果的不确定性是很大的,比赛的“信息熵”也是很大的,从而此人对该场比赛的结果好奇心也是很大的(这种情况也可以说两支输赢各半的球队进行比赛)。但如果是多年篮球的“老司机”,假设比赛发生在17-18赛季的骑士和勇士之间,对于比赛结果可能就不是各50%了,甚至可以说勇士赢球的概率在50%以上,那么此时,比赛的信息量是少的,因为该位“老司机”已经根据以往的经验推出结果,比赛结果的不确定性减少,“信息熵”降低,对比赛的关注程度也降低。
信息熵的计算方法 : . pi表示事件Ai的不确定性,即出现概率.H表示“信息熵”。