定性解释
熵是指混乱程度,越混乱,熵越大。
他是一种信息度量,体现了系统在当前状态下,个体组合方式的多样性程度
左图井然有序,右图杂乱不堪,所以右图的熵更大。
定量解释
假设有N个球。在第一个格子中放置n1个球,在第二个格子中放置n2个球。。。。。
所以N个球放置到M个格子中的排列组合数有W中。
根据热力学的熵公式,做以上推导,得出信息熵公式:
通俗解释
信息熵是在结果出来之前对可能产生的信息量的期望,
信息量是对信息的度量,是指一个事件的发生所带来的信息多少。
也就是说,信息熵是指所有可能发生的事件,所带来的信息大小。即,sum(事件a发生的概率*事件a所带来的信息大小)
那么事件a能带来多少信息呢?(事件a的信息量多大)
信息的大小跟随机事件的概率有关。越小概率的事情发生了产生的信息量越大,越大概率的事情发生的信息量越小
一个具体事件的信息量应该是随着其发生概率而递减的,且不能为负。
如果我们有俩个不相关的事件 x 和 y,那么我们观察到的俩个事件同时发生时获得的信息应该等于观察到的事件各自发生时获得的信息之和,即:h(x,y) = h(x) + h(y)
由于 x,y 是俩个不相关的事件,那么满足 p(x,y) = p(x)*p(y).
根据上面推导,我们很容易看出 h(x)一定与 p(x)的对数有关(因为只有对数形式的真数相乘之后,能够对应对数的相加形式)。因此我们有信息量公式如下:
𝐡(𝐱) = −𝒍𝒐𝒈𝟐𝒑(𝒙)
(1)为什么有一个负号?其中,负号是为了确保信息一定是正数或者是 0,总不能为负数吧!
(2)为什么底数为 2 这是因为,我们只需要信息量满足低概率事件 x 对应于高的信息量。那么对数的选择是任意的。我们只是遵循信息论的普遍传统,使用 2 作为对数的底!
所以,𝐇(𝐱) = −𝒔𝒖𝒎(𝒑(𝒙)𝒍𝒐𝒈𝟐𝒑(𝒙))