信息论基础学习笔记(一)——随机变量的信息度量

1.1自信息

  信源,指的是消息的来源。若信源输出的消息是以取值离散的符号形式出现,其不同符号数是有限个,或为可列无限个,则此信源称为离散信源。若输出的消息的取值是连续的,则称其为连续信源。按输出符号之间的依赖关系,也可将信源分为无记忆信源有记忆信源

  离散信源通常用随机变量 X X X表示, X X X的可能取值,即信源的可能输出的不同符号用集合 χ \chi χ表示。如若将抛硬币这一随机试验看做一个信源的话,其取值集合即为 χ = { 正 , 反 } \chi=\{正,反\} χ={}

  要解决信息的度量问题,我们将信源发出某个信号 x 0 ∈ χ x_0\in\chi x0χ后所提供的信息量的多少定义为 x 0 x_0 x0自信息,记为 I ( x 0 ) I(x_0) I(x0)。自信息度量的是信号 x 0 x_0 x0的不确定性(发生的可能性)。如果用概率 p ( x 0 ) p(x_0) p(x0)表示 x 0 x_0 x0发生的概率,则 I ( x 0 ) I(x_0) I(x0)应该为 p ( x 0 ) p(x_0) p(x0)的一个函数,且满足如下公理:

  1. 非负: I ( x 0 ) ≥ 0. I(x_0)\ge0. I(x0)0.
  2. p ( x ) = 0 p(x)=0 p(x)=0,则 I ( x ) → ∞ . I(x)→∞. I(x).
  3. p ( x ) = 1 p(x)=1 p(x)=1,则 I ( x ) = 0. I(x)=0. I(x)=0.
  4. 严格单调性:如果 p ( x ) > p ( y ) p(x)>p(y) p(x)>p(y),则 I ( x ) < I ( y ) . I(x)<I(y). I(x)<I(y).
  5. 如果 p ( x , y ) = p ( x ) p ( y ) p(x,y)=p(x)p(y) p(x,y)=p(x)p(y),则 I ( x , y ) = I ( x ) + I ( y ) . I(x,y)=I(x)+I(y). I(x,y)=I(x)+I(y).

  若自信息 I ( x ) I(x) I(x)满足上述公理,则 I ( x ) = c   l o g 1 p ( x ) I(x)=c\ log\frac{1}{p(x)} I(x)=c logp(x)1其中 c c c为常数。

  定义:若 x ∈ χ x\in\chi xχ有概率 p ( x ) p(x) p(x),则 x x x的自信息为 I ( x ) = l o g 1 p ( x ) I(x)=log\frac{1}{p(x)} I(x)=logp(x)1


1.2 熵、联合熵、条件熵

1.2.1 熵

  如果用随机变量代表一个信源,则为其平均不确定性的度量。

  设随机变量 X X X的概率分布函数为 p ( x ) = P r { X = x } , x ∈ χ p(x)=P_r\{X=x\},x\in\chi p(x)=Pr{X=x},xχ p ( x ) p(x) p(x) p ( y ) p(y) p(y)(或 P X ( x ) P_X(x) PX(x) P Y ( y ) P_Y(y) PY(y))分别表示随机变量 X X X Y Y Y的概率分布函数。则离散随机变量 X X X的熵定义为 H ( X ) = − ∑ x ∈ χ p ( x )   l o g   p ( x ) H(X)=-\sum_{x\in\chi}p(x)\ log\ p(x) H(X)=xχp(x) log p(x)
针对对数函数不同的底,熵有如下不同的单位:

  1. 底为 2 2 2 → → 比特 ( b i t ) (bit) (bit).
  2. 底为 e e e → → 奈特 ( n a t ) (nat) (nat).
  3. 底为 10 10 10 → → 哈特 ( h a r t l e y ) (hartley) (hartley).

注:熵仅为概率分布的函数,与 X X X的取值并无关系.

  若用 E p E_p Ep表示概率分布 p p p的期望, E p g ( X ) = ∑ x ∈ χ g ( x ) p ( x ) E_pg(X)=\sum_{x\in\chi}g(x)p(x) Epg(X)=xχg(x)p(x)则熵可表示为随机变量 l o g 1 p ( x ) log\frac{1}{p(x)} logp(x)1的期望, H ( X ) = E p   l o g   1 p ( x ) H(X)=E_p\ log\ \frac{1}{p(x)} H(X)=Ep log p(x)1由此可见,熵是自信息的概率加权平均值

熵的性质如下:

  1. H ( X ) ≥ 0 H(X)\ge0 H(X)0,当且仅当 X X X有退化分布*时等号成立.(*退化分布指的是 P ( X = c ) = 1 P(X=c)=1 P(X=c)=1

1.2.2 联合熵

设一对随机变量 ( X , Y ) (X,Y) (X,Y)的联合分布为 p ( x , y ) = P r { X = x , Y = y } , x ∈ X , y ∈ Y p(x,y)=Pr\{X=x,Y=y\},x\in\mathcal{X},y\in\mathcal{Y} p(x,y)=Pr{X=x,Y=y},xX,yY则定义 ( x , y ) (x,y) (x,y)的联合熵 H ( X , Y ) H(X,Y) H(X,Y) H ( X , Y ) = − ∑ x ∈ X ∑ y ∈ Y p ( x , y )   l o g   p ( x , y ) H(X,Y)=-\sum_{x\in\mathcal{X}}\sum_{y\in\mathcal{Y}}p(x,y)\ log\ p(x,y) H(X,Y)=xXyYp(x,y) log p(x,y)或以期望形式 H ( X , Y ) = − E   l o g   p ( X , Y ) H(X,Y)=-E\ log\ p(X,Y) H(X,Y)=E log p(X,Y)
联合熵的概念可进一步推广至 n n n维随机变量。设 n n n维随机向量 ( X 1 , X 2 , . . . , X n ) (X_1,X_2,...,X_n) (X1,X2,...,Xn)的联合分布为 p ( x 1 , x 2 , . . . , x n ) = P r { X 1 = x 1 , X 2 = x 2 , . . . , X n = x n } , x 1 ∈ X 1 , x 2 ∈ X 2 , . . . , x n ∈ X n p(x_1,x_2,...,x_n)=P_r\{X_1=x_1,X_2=x_2,...,X_n=x_n\},x_1\in\mathcal{X_1},x_2\in\mathcal{X_2},...,x_n\in\mathcal{X_n} p(x1,x2,...,xn)=Pr{X1=x1,X2=x2,...,Xn=xn},x1X1,x2X2,...,xnXn,则联合熵为 H ( X 1 , X 2 , . . . , X n ) H(X_1,X_2,...,X_n) H(X1,X2,...,Xn) = − ∑ x 1 ∈ X 1 ∑ x 2 ∈ X 2 . . . ∑ x n ∈ X n p ( x 1 , x 2 , . . . , x n )   l o g   p ( x 1 , x 2 , . . . , x n ) =-\sum_{x_1\in\mathcal{X_1}}\sum_{x_2\in\mathcal{X_2}}...\sum_{x_n\in\mathcal{X_n}}p(x_1,x_2,...,x_n)\ log\ p(x_1,x_2,...,x_n) =x1X1x2X2...xnXnp(x1,x2,...,xn) log p(x1,x2,...,xn)

1.2.3 条件熵

  设随机变量对 ( X , Y ) (X,Y) (X,Y)有联合分布 p ( x , y ) p(x,y) p(x,y),用 p ( y ∣ x ) = P r { Y = y ∣ X = x } , x ∈ X , y ∈ Y p(y|x)=Pr\{Y=y|X=x\},x\in\mathcal{X},y\in\mathcal{Y} p(yx)=Pr{Y=yX=x},xX,yY表示条件概率分布,则给定 X = x X=x X=x条件下 Y Y Y的熵定义为 H ( Y ∣ X = x ) = − ∑ y ∈ Y p ( y ∣ x )   l o g   p ( y ∣ x ) H(Y|X=x)=-\sum_{y\in\mathcal{Y}}p(y|x)\ log\ p(y|x) H(YX=x)=yYp(yx) log p(yx) H ( Y ∣ X ) H(Y|X) H(YX)来表示 H ( Y ∣ X = x ) H(Y|X=x) H(YX=x)关于 X X X的平均值,则有 H ( Y ∣ X ) = − E   l o g   p ( Y ∣ X ) H(Y|X)=-E\ log\ p(Y|X) H(YX)=E log p(YX)

1.2.4 链法则

  随机变量对的联合熵、单个随机变量的熵以及两变量的条件熵具有如下关系:

  (链法则) H ( X , Y ) = H ( X ) + H ( Y ∣ X ) H(X,Y)=H(X)+H(Y|X) H(X,Y)=H(X)+H(YX)

  推广至多元随机变量:

  设 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn的联合分布为 p ( x 1 , x 2 , . . . , x n ) p(x_1,x_2,...,x_n) p(x1,x2,...,xn),则 H ( X 1 , X 2 , . . . , X n ) = ∑ i = 1 n H ( X i ∣ X i − 1 , . . . , X 1 ) H(X_1,X_2,...,X_n)=\sum^n_{i=1}H(X_i|X_{i-1},...,X_1) H(X1,X2,...,Xn)=i=1nH(XiXi1,...,X1)


1.3 相对熵和互信息

1.3.1 相对熵

  相对熵是两个概率分布差异性的一种度量。定义在同一字母集合 X \mathcal{X} X上的两个概率分布 p ( x ) p(x) p(x) q ( x ) q(x) q(x)的相对熵定义为: D ( p ∣ ∣ q ) = ∑ x ∈ X p ( x )   l o g   p ( x ) q ( x ) = E p   l o g   p ( x ) q ( x ) D(p||q)=\sum_{x\in\mathcal{X}}p(x)\ log\ \frac{p(x)}{q(x)}=E_p\ log\ \frac{p(x)}{q(x)} D(pq)=xXp(x) log q(x)p(x)=Ep log q(x)p(x)在此,我们规定 0 ⋅ l o g   0 q = 0 , p ⋅ l o g   p 0 = ∞ 0·log\ \frac{0}{q}=0,p·log\ \frac{p}{0}=∞ 0log q0=0,plog 0p=,一般地, D ( p ∣ ∣ q ) ≠ D ( q ∣ ∣ p ) D(p||q)\neq D(q||p) D(pq)=D(qp),且 D ( p ∣ ∣ q ) ≥ 0 D(p||q)\ge0 D(pq)0(等号成立的充要条件为对所有的 x ∈ X x\in\mathcal{X} xX都有 p ( x ) = q ( x ) p(x)=q(x) p(x)=q(x)

1.3.2 互信息

  互信息是一个随机变量包含的关于另一个随机变量的信息量的度量。设两个随机变量 ( X , Y ) (X,Y) (X,Y)的联合分布为 p ( x , y ) p(x,y) p(x,y),边际分布分别为 p ( x ) p(x) p(x) p ( y ) p(y) p(y),定义互信息 I ( X , Y ) I(X,Y) I(X,Y)为联合分布 p ( x , y ) p(x,y) p(x,y)与乘积分布 p ( x ) ⋅ p ( y ) p(x)·p(y) p(x)p(y)的相对熵,即 I ( X ; Y ) = ∑ x ∈ X ∑ y ∈ Y p ( x , y )   log ⁡ p ( x , y ) p ( x ) ⋅ p ( y ) I(X;Y)=\sum_{x\in\mathcal{X}}\sum_{y\in\mathcal{Y}}p(x,y)\ \log\frac{p(x,y)}{p(x)·p(y)} I(X;Y)=xXyYp(x,y) logp(x)p(y)p(x,y) = E p ( x , y ) log ⁡ p ( X , Y ) p ( X ) ⋅ p ( Y ) =E_{p(x,y)} \log\frac{p(X,Y)}{p(X)·p(Y)} =Ep(x,y)logp(X)p(Y)p(X,Y)由定义可知,互信息关于 X , Y X,Y X,Y对称,即 I ( X ; Y ) = I ( Y ; X ) I(X;Y)=I(Y;X) I(X;Y)=I(Y;X),同时我们也可知互信息 I ( X ; Y ) I(X;Y) I(X;Y)、熵 H ( X ) H(X) H(X) H ( Y ) H(Y) H(Y)、联合熵 H ( X , Y ) H(X,Y) H(X,Y)、条件熵 H ( X ∣ Y ) H(X|Y) H(XY) H ( Y ∣ X ) H(Y|X) H(YX)具有如下关系 I ( X ; Y ) = H ( X ) + H ( Y ) − H ( X , Y ) I(X;Y)=H(X)+H(Y)-H(X,Y) I(X;Y)=H(X)+H(Y)H(X,Y) = H ( X ) − H ( X ∣ Y ) =H(X)-H(X|Y) =H(X)H(XY) = H ( Y ) − H ( Y ∣ X ) =H(Y)-H(Y|X) =H(Y)H(YX) = I ( Y ; X )                 =I(Y;X)\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ =I(Y;X)                I ( X , X ) = H ( X )                                    I(X,X)=H(X)\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ I(X,X)=H(X)                                  
当然,互信息具有非负性, I ( X , Y ) ≥ 0 I(X,Y)\ge0 I(X,Y)0,当且仅当 X X X Y Y Y相互独立时等号成立.

两个随机变量互信息与熵的关系图:
两个随机变量互信息与熵的关系图
由图可知由以下不等式成立,

H ( X ∣ Y ) ≤ H ( X ) H(X|Y)\le H(X) H(XY)H(X)及其推广 H ( X i ∣ X i − 1 , . . . , X 1 ) ≤ H ( X i ) H(X_i|X_{i-1},...,X_1)\le H(X_i) H(XiXi1,...,X1)H(Xi) H ( X , Y ) ≤ H ( X ) + H ( Y ) H(X,Y)\le H(X)+H(Y) H(X,Y)H(X)+H(Y)及其推广 H ( X 1 , . . . , X n ) ≤ ∑ i = 1 n H ( X i ) H(X_1,...,X_n)\le \sum_{i=1}^nH(X_i) H(X1,...,Xn)i=1nH(Xi)上述不等式表明:条件增加,随机变量的不确定性下降,对应的熵减少。

1.3.3 条件互信息

设随机变量 X , Y , Z X,Y,Z X,Y,Z的联合分布为 p ( x , y , z ) p(x,y,z) p(x,y,z),则给定 Z Z Z条件下 X X X Y Y Y的条件互信息为 I ( X ; Y ∣ Z ) = ∑ z ∈ Z p ( z ) ∑ x ∈ X ∑ y ∈ Y p ( x , y ∣ z ) log ⁡ p ( x , y ∣ z ) p ( x ∣ z ) p ( y ∣ z ) I(X;Y|Z)=\sum_{z\in\mathcal{Z}}p(z)\sum_{x\in\mathcal{X}}\sum_{y\in\mathcal{Y}}p(x,y|z)\log \frac{p(x,y|z)}{p(x|z)p(y|z)} I(X;YZ)=zZp(z)xXyYp(x,yz)logp(xz)p(yz)p(x,yz)

性质

同样具有以下关系: I ( X ; Y ∣ Z ) = H ( X ∣ Z ) + H ( Y ∣ Z ) − H ( X , Y ∣ Z ) I(X;Y|Z)=H(X|Z)+H(Y|Z)-H(X,Y|Z) I(X;YZ)=H(XZ)+H(YZ)H(X,YZ) = H ( X ∣ Z ) − H ( X ∣ Y , Z ) =H(X|Z)-H(X|Y,Z) =H(XZ)H(XY,Z) = H ( Y ∣ Z ) − H ( Y ∣ X , Z ) =H(Y|Z)-H(Y|X,Z) =H(YZ)H(YX,Z) = I ( Y ; X ∣ Z )                      =I(Y;X|Z)\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ =I(Y;XZ)                    

非负性: I ( X ; Y ∣ Z ) ≥ 0 I(X;Y|Z)\ge0 I(X;YZ)0,当且仅当 Z Z Z条件下 X X X Y Y Y互相独立.

类似于熵的链法则: I ( X 1 , X 2 , . . . , X n ) = ∑ i = 1 n I ( X i ; Y ∣ X i − 1 , X i − 2 , . . . , X 1 ) I(X_1,X_2,...,X_n)=\sum^n_{i=1}I(X_i;Y|X_{i-1},X_{i-2},...,X_{1}) I(X1,X2,...,Xn)=i=1nI(Xi;YXi1,Xi2,...,X1)

马氏链

  设随机变量 X , Y , Z X,Y,Z X,Y,Z的联合分布为 p ( x , y , z ) p(x,y,z) p(x,y,z),则当 p ( x , y ∣ z ) = p ( x ∣ z ) p ( y ∣ z ) p(x,y|z)=p(x|z)p(y|z) p(x,yz)=p(xz)p(yz)对任意 x ∈ X , y ∈ Y , z ∈ Z x\in\mathcal{X},y\in\mathcal{Y},z\in\mathcal{Z} xX,yY,zZ成立时,称在 Z Z Z条件下 X X X Y Y Y相互独立,记为 X ⊥ Y ∣ Z X\perp Y|Z XYZ,此时 X , Z , Y X,Z,Y X,Z,Y构成马氏链,记为 X → Z → Y . X→Z→Y. XZY.

易证如下不等式成立,

  1. 如果 X → Z → Y X→Z→Y XZY为马氏链,则 I ( X ; Y ) ≤ I ( X ; Z ) I(X;Y)\le I(X;Z) I(X;Y)I(X;Z) I ( X ; Y ) ≤ I ( Z ; Y ) . I(X;Y)\le I(Z;Y). I(X;Y)I(Z;Y).

  2. 如果 U → X → Y → V U→X→Y→V UXYV构成马氏链,则 I ( U ; V ) ≤ I ( X ; Y ) . I(U;V)\le I(X;Y). I(U;V)I(X;Y).

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值