随机事件的信息量
为了描述一个随机事件的信息量,定义了自信息。
自信息表示不确定性的程度。
一个事件确定发生,是没有信息量的;而一个事件发生的概率越小,则其信息量越大。
未知所带来的不确定性,就是自信息要描述的目标。
自信息:
I(x)=logi1p(x)
notice:这里的自信息量并不代表信息作用的大小。一般以2为基底。
熵:自信息的期望。
H(x)=∑ilog21p(xi)
所有可能情况的信息量的加权均值。(各种不确定情况的平均情况)
同时,熵可以表示系统或者变量的混乱程度,越混乱,熵越大。均匀分布时,熵最大。
熵在均匀分布时取得最大值,证明如下:
已知:
H(x)=∑iln1p(xi),s.t.∑ip(xi)=1
由拉格朗日法构造函数:
F(x)=∑iln1p(xi)+λ(∑ip(xi)−1)
分别对 p(xi) 和 λ 求偏导数:
⎧⎩⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪∂F∂p(xi)=[ln1p(xi)+p(xi)∗11p(xi)∗−1p2(xi)]+λ=−lnp(xi)−1+λ=0∂F∂λ=∑ip(xi)−1=0
求得:
⎧⎩⎨⎪⎪p(xi)=eλ−1∑ip(xi)−1=0=>neλ−1=1=>p(xi)=1n
得证,熵当且仅当
p(xi)=1n
时,存在极值,这里是极大值。
在信息论与编码理论中,熵描述一个符号变量的可被编码的程度。
举个例子,计算自信息和熵。
x 满足二项分布,
其自信息为 I(x=1)=log213/5
其熵为 H(x)=35log2135+25log2125
若对抽样样本,大概估计其熵和自信息。
x∈1,1,1,1,0 , 则自信息 I(x=1)=−log253
其熵: