信息论基础——熵
一 、Jensen不等式
定理1 设 f f f 为区间 I I I 上的凹函数, p i ∈ [ 0 , 1 ] , i = 1 , 2 , ⋯   , n p_{i} \in[0,1], i=1,2,\cdots,n pi∈[0,1],i=1,2,⋯,n,且 ∑ i = 1 n p i = 1 \sum_{i=1}^{n} p_{i}=1 ∑i=1npi=1,则对任何 x i ∈ I x_{i} \in I xi∈I,有 f ( ∑ i = 1 n p i x i ) ⩾ ∑ i = 1 n p i f ( x i ) f\left(\sum_{i=1}^{n} p_{i} x_{i}\right) \geqslant \sum_{i=1}^{n} p_{i} f\left(x_{i}\right) f(i=1∑npixi)⩾i=1∑npif(xi)
若 f f f 严格凹,上式的等号只有在下列条件满足时才成立:若 p i ⋅ p j ≠ 0 p_{i} \cdot p_{j} \neq 0 pi⋅pj̸=0,则必有 x i = x j x_{i}=x_{j} xi=xj
证明:略
对于对数函数 f ( x ) = log x f(x)=\log x f(x)=logx在区间 ( 0 , + ∞ ) (0,+\infty) (0,+∞)是凹函数,有 log ( ∑ i = 1 n p i x i ) ⩾ ∑ i = 1 n p i log x i \log \left(\sum_{i=1}^{n} p_{i} x_{i}\right) \geqslant \sum_{i=1}^{n} p_{i} \log x_{i} log(∑i=1npixi)⩾∑i=1npilogxi, ∀ i , x i > 0 , p i ⩾ 0 \forall i, x_{i}>0, p_{i} \geqslant 0 ∀i,xi>0,pi⩾0,且 ∑ i = 1 n p i = 1 \sum_{i=1}^{n} p_{i}=1 ∑i=1npi=1。
二、熵
一个离散随机变量 X X X的熵 H ( X ) H(X) H(X)的定义为 H ( X ) = ∑ X P ( X ) log 1 P ( X ) = − ∑ X P ( X ) log P ( X ) H(X)=\sum_{X} P(X) \log \frac{1}{P(X)}=-\sum_{X} P(X) \log P(X) H(X)=X∑P(X)logP(X)1=−X∑P(X)logP(X) log P ( X ) \log P(X) logP(X)以为 2 2 2底,熵的单位是比特,以 e e e为底,熵的单位是奈特
熵是对随机变量的不确定性的度量。随机变量 X X X的熵越大,说明它的不确定性越大。
熵的基本性质
( 1 ) (1) (1) H ( X ) ⩾ 0 H(X) \geqslant 0 H(X)⩾0
( 2 ) (2) (2) H ( X ) ⩽ log ∣ X ∣ H(X) \leqslant \log |X| H(X)⩽log∣X∣,等号成立当且仅当对 X X X的所有取值 x x x有 P ( X = x ) = 1 ∣ X ∣ P(X=x)=\frac{1}{|X|} P(X=x)=∣X∣1
证明: ( 1 ) (1) (1) 对 X X X的任意取值 x x x,总有 − P ( X = x ) log P ( X = x ) ⩾ 0 -P(X=x) \log P(X=x) \geqslant 0 −P(X=x)logP(X=x)⩾0
( 2 ) (2) (2) H ( X ) = ∑ x P ( X ) log 1 P ( X ) ⩽ log ∑ X P ( X ) 1 P ( X ) = log ∣ X ∣ \begin{aligned} H(X) &=\sum_{x} P(X) \log \frac{1}{P(X)} \\ & \leqslant \log \sum_{X} P(X) \frac{1}{P(X)}=\log |X| \end{aligned} H(X)=x∑P(X)logP(X)1⩽logX∑P(X)P(X)1=log∣X∣命题得证,此性质经常被称为最大熵原理
三、联合熵、条件熵和互信息
联合熵:两个离散随机变量 X X X和 Y Y Y的联合熵的定义为
H ( X , Y ) = ∑ X , Y P ( X , Y ) log 1 P ( X , Y ) = − ∑ X , Y P ( X , Y ) log P ( X , Y ) H(X, Y)=\sum_{X, Y} P(X, Y) \log \frac{1}{P(X, Y)}=-\sum_{X, Y} P(X, Y) \log P(X, Y) H(X,Y)=X,Y∑P(X,Y)logP(X,Y)1=−X,Y∑P(X,Y)logP(X,Y)
条件熵:给定 Y = x Y=x Y=x时 X X X的条件熵为
H ( X ∣ Y = y ) = ∑ X P ( X ∣ Y = y ) log 1 P ( X ∣ Y = y ) H(X | Y=y)=\sum_{X} P(X | Y=y) \log \frac{1}{P(X | Y=y)} H(X∣Y=y)=X∑P(X∣Y=y)logP(X∣Y=y)1
条件熵 H ( X ∣ Y = y ) H(X | Y=y) H(X∣Y