信息论的基本想法是一个不太可能的事件居然发生了,要比一个非常可能的事件发生,能提供更多的信息。消息说:‘‘今天早上太阳升起’’ 信息量是如此之少以至于没有必要发送,但一条消息说:‘‘今天早上有日食’’ 信息量就很丰富。
我们想要通过这种基本想法来量化信息。定义三个性质
- 非常可能发生的事件信息量要比较少,并且极端情况下,确保能够发生的事件应该没有信息量。
- 较不可能发生的事件具有更高的信息量。
- 独立事件应具有增量的信息。例如,投掷的硬币两次正面朝上传递的信息量,应该是投掷一次硬币正面朝上的信息量的两倍。
在两元随机变量情况下,可以使用下图帮助理解和记忆
自信息
为了满足上述三个性质,我们定义一个事件 x = x 的自信息(self-information):
I(x)=−logP(x) I ( x ) = − l o g P ( x ) ,log为自然对数
I(x) 的单位是奈特(nats),1 nats是以1/e 的概率观测到一个事件时获得的信息量。如果是以2的对数计算,单位就是比特(bit)或香农(shannons)。
香农熵
自信息只处理单个的输出,用香农熵(Shannon entropy)来对整个概率分布中的不确定性总量进行量化:
H(X)=E(I(x))=−∑x∈XP(x)logP(x) H ( X ) = E ( I ( x ) ) = − ∑ x ∈ X P ( x ) l o g P ( x )
一个分布的香农熵是指遵循这个分布的事件所产生的期望信息总量。
联合熵 joint entropy
联合熵:表示随机变量X,Y同时发生的不确定性。
H(X,Y)=−∑x∈X,y∈YP(x,y)logP(x,y) H ( X , Y ) = − ∑ x ∈ X , y ∈ Y P ( x , y ) l o g P ( x , y )
对于多变量:
性质
非负性: H(X,Y)≥0 H ( X , Y ) ≥ 0
大于单个变量的熵 H(X,Y)≥max[H(X),H(Y)] H ( X , Y ) ≥ m a x [ H ( X ) , H ( Y ) ]
H(X,Y)≤H(X)+H(Y) H ( X , Y ) ≤ H ( X ) + H ( Y )
条件熵
条件熵:在已知一个变量发生的条件下,另一个变量发生所新增加的不确定性:
H(Y|X=x) H ( Y | X = x