1.1自信息
信源,指的是消息的来源。若信源输出的消息是以取值离散的符号形式出现,其不同符号数是有限个,或为可列无限个,则此信源称为离散信源。若输出的消息的取值是连续的,则称其为连续信源。按输出符号之间的依赖关系,也可将信源分为无记忆信源和有记忆信源。
离散信源通常用随机变量 X X X表示, X X X的可能取值,即信源的可能输出的不同符号用集合 χ \chi χ表示。如若将抛硬币这一随机试验看做一个信源的话,其取值集合即为 χ = { 正 , 反 } \chi=\{正,反\} χ={正,反}。
要解决信息的度量问题,我们将信源发出某个信号 x 0 ∈ χ x_0\in\chi x0∈χ后所提供的信息量的多少定义为 x 0 x_0 x0的自信息,记为 I ( x 0 ) I(x_0) I(x0)。自信息度量的是信号 x 0 x_0 x0的不确定性(发生的可能性)。如果用概率 p ( x 0 ) p(x_0) p(x0)表示 x 0 x_0 x0发生的概率,则 I ( x 0 ) I(x_0) I(x0)应该为 p ( x 0 ) p(x_0) p(x0)的一个函数,且满足如下公理:
- 非负: I ( x 0 ) ≥ 0. I(x_0)\ge0. I(x0)≥0.
- 如 p ( x ) = 0 p(x)=0 p(x)=0,则 I ( x ) → ∞ . I(x)→∞. I(x)→∞.
- 如 p ( x ) = 1 p(x)=1 p(x)=1,则 I ( x ) = 0. I(x)=0. I(x)=0.
- 严格单调性:如果 p ( x ) > p ( y ) p(x)>p(y) p(x)>p(y),则 I ( x ) < I ( y ) . I(x)<I(y). I(x)<I(y).
- 如果 p ( x , y ) = p ( x ) p ( y ) p(x,y)=p(x)p(y) p(x,y)=p(x)p(y),则 I ( x , y ) = I ( x ) + I ( y ) . I(x,y)=I(x)+I(y). I(x,y)=I(x)+I(y).
若自信息 I ( x ) I(x) I(x)满足上述公理,则 I ( x ) = c l o g 1 p ( x ) I(x)=c\ log\frac{1}{p(x)} I(x)=c logp(x)1其中 c c c为常数。
定义:若 x ∈ χ x\in\chi x∈χ有概率 p ( x ) p(x) p(x),则 x x x的自信息为 I ( x ) = l o g 1 p ( x ) I(x)=log\frac{1}{p(x)} I(x)=logp(x)1
1.2 熵、联合熵、条件熵
1.2.1 熵
如果用随机变量代表一个信源,则熵为其平均不确定性的度量。
设随机变量
X
X
X的概率分布函数为
p
(
x
)
=
P
r
{
X
=
x
}
,
x
∈
χ
p(x)=P_r\{X=x\},x\in\chi
p(x)=Pr{X=x},x∈χ,
p
(
x
)
p(x)
p(x)和
p
(
y
)
p(y)
p(y)(或
P
X
(
x
)
P_X(x)
PX(x)和
P
Y
(
y
)
P_Y(y)
PY(y))分别表示随机变量
X
X
X和
Y
Y
Y的概率分布函数。则离散随机变量
X
X
X的熵定义为
H
(
X
)
=
−
∑
x
∈
χ
p
(
x
)
l
o
g
p
(
x
)
H(X)=-\sum_{x\in\chi}p(x)\ log\ p(x)
H(X)=−x∈χ∑p(x) log p(x)
针对对数函数不同的底,熵有如下不同的单位:
- 底为 2 2 2 → → → 比特 ( b i t ) (bit) (bit).
- 底为 e e e → → → 奈特 ( n a t ) (nat) (nat).
- 底为 10 10 10 → → → 哈特 ( h a r t l e y ) (hartley) (hartley).
注:熵仅为概率分布的函数,与 X X X的取值并无关系.
若用 E p E_p Ep表示概率分布 p p p的期望, E p g ( X ) = ∑ x ∈ χ g ( x ) p ( x ) E_pg(X)=\sum_{x\in\chi}g(x)p(x) Epg(X)=x∈χ∑g(x)p(x)则熵可表示为随机变量 l o g 1 p ( x ) log\frac{1}{p(x)} logp(x)1的期望, H ( X ) = E p l o g 1 p ( x ) H(X)=E_p\ log\ \frac{1}{p(x)} H(X)=Ep log p(x)1由此可见,熵是自信息的概率加权平均值。
熵的性质如下:
- H ( X ) ≥ 0 H(X)\ge0 H(X)≥0,当且仅当 X X X有退化分布*时等号成立.(*退化分布指的是 P ( X = c ) = 1 P(X=c)=1 P(X=c)=1)
1.2.2 联合熵
设一对随机变量
(
X
,
Y
)
(X,Y)
(X,Y)的联合分布为
p
(
x
,
y
)
=
P
r
{
X
=
x
,
Y
=
y
}
,
x
∈
X
,
y
∈
Y
p(x,y)=Pr\{X=x,Y=y\},x\in\mathcal{X},y\in\mathcal{Y}
p(x,y)=Pr{X=x,Y=y},x∈X,y∈Y则定义
(
x
,
y
)
(x,y)
(x,y)的联合熵
H
(
X
,
Y
)
H(X,Y)
H(X,Y)为
H
(
X
,
Y
)
=
−
∑
x
∈
X
∑
y
∈
Y
p
(
x
,
y
)
l
o
g
p
(
x
,
y
)
H(X,Y)=-\sum_{x\in\mathcal{X}}\sum_{y\in\mathcal{Y}}p(x,y)\ log\ p(x,y)
H(X,Y)=−x∈X∑y∈Y∑p(x,y) log p(x,y)或以期望形式
H
(
X
,
Y
)
=
−
E
l
o
g
p
(
X
,
Y
)
H(X,Y)=-E\ log\ p(X,Y)
H(X,Y)=−E log p(X,Y)
联合熵的概念可进一步推广至
n
n
n维随机变量。设
n
n
n维随机向量
(
X
1
,
X
2
,
.
.
.
,
X
n
)
(X_1,X_2,...,X_n)
(X1,X2,...,Xn)的联合分布为
p
(
x
1
,
x
2
,
.
.
.
,
x
n
)
=
P
r
{
X
1
=
x
1
,
X
2
=
x
2
,
.
.
.
,
X
n
=
x
n
}
,
x
1
∈
X
1
,
x
2
∈
X
2
,
.
.
.
,
x
n
∈
X
n
p(x_1,x_2,...,x_n)=P_r\{X_1=x_1,X_2=x_2,...,X_n=x_n\},x_1\in\mathcal{X_1},x_2\in\mathcal{X_2},...,x_n\in\mathcal{X_n}
p(x1,x2,...,xn)=Pr{X1=x1,X2=x2,...,Xn=xn},x1∈X1,x2∈X2,...,xn∈Xn,则联合熵为
H
(
X
1
,
X
2
,
.
.
.
,
X
n
)
H(X_1,X_2,...,X_n)
H(X1,X2,...,Xn)
=
−
∑
x
1
∈
X
1
∑
x
2
∈
X
2
.
.
.
∑
x
n
∈
X
n
p
(
x
1
,
x
2
,
.
.
.
,
x
n
)
l
o
g
p
(
x
1
,
x
2
,
.
.
.
,
x
n
)
=-\sum_{x_1\in\mathcal{X_1}}\sum_{x_2\in\mathcal{X_2}}...\sum_{x_n\in\mathcal{X_n}}p(x_1,x_2,...,x_n)\ log\ p(x_1,x_2,...,x_n)
=−x1∈X1∑x2∈X2∑...xn∈Xn∑p(x1,x2,...,xn) log p(x1,x2,...,xn)
1.2.3 条件熵
设随机变量对 ( X , Y ) (X,Y) (X,Y)有联合分布 p ( x , y ) p(x,y) p(x,y),用 p ( y ∣ x ) = P r { Y = y ∣ X = x } , x ∈ X , y ∈ Y p(y|x)=Pr\{Y=y|X=x\},x\in\mathcal{X},y\in\mathcal{Y} p(y∣x)=Pr{Y=y∣X=x},x∈X,y∈Y表示条件概率分布,则给定 X = x X=x X=x条件下 Y Y Y的熵定义为 H ( Y ∣ X = x ) = − ∑ y ∈ Y p ( y ∣ x ) l o g p ( y ∣ x ) H(Y|X=x)=-\sum_{y\in\mathcal{Y}}p(y|x)\ log\ p(y|x) H(Y∣X=x)=−y∈Y∑p(y∣x) log p(y∣x)用 H ( Y ∣ X ) H(Y|X) H(Y∣X)来表示 H ( Y ∣ X = x ) H(Y|X=x) H(Y∣X=x)关于 X X X的平均值,则有 H ( Y ∣ X ) = − E l o g p ( Y ∣ X ) H(Y|X)=-E\ log\ p(Y|X) H(Y∣X)=−E log p(Y∣X)
1.2.4 链法则
随机变量对的联合熵、单个随机变量的熵以及两变量的条件熵具有如下关系:
(链法则) : H ( X , Y ) = H ( X ) + H ( Y ∣ X ) H(X,Y)=H(X)+H(Y|X) H(X,Y)=H(X)+H(Y∣X)
推广至多元随机变量:
设 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn的联合分布为 p ( x 1 , x 2 , . . . , x n ) p(x_1,x_2,...,x_n) p(x1,x2,...,xn),则 H ( X 1 , X 2 , . . . , X n ) = ∑ i = 1 n H ( X i ∣ X i − 1 , . . . , X 1 ) H(X_1,X_2,...,X_n)=\sum^n_{i=1}H(X_i|X_{i-1},...,X_1) H(X1,X2,...,Xn)=i=1∑nH(Xi∣Xi−1,...,X1)
1.3 相对熵和互信息
1.3.1 相对熵
相对熵是两个概率分布差异性的一种度量。定义在同一字母集合 X \mathcal{X} X上的两个概率分布 p ( x ) p(x) p(x)和 q ( x ) q(x) q(x)的相对熵定义为: D ( p ∣ ∣ q ) = ∑ x ∈ X p ( x ) l o g p ( x ) q ( x ) = E p l o g p ( x ) q ( x ) D(p||q)=\sum_{x\in\mathcal{X}}p(x)\ log\ \frac{p(x)}{q(x)}=E_p\ log\ \frac{p(x)}{q(x)} D(p∣∣q)=x∈X∑p(x) log q(x)p(x)=Ep log q(x)p(x)在此,我们规定 0 ⋅ l o g 0 q = 0 , p ⋅ l o g p 0 = ∞ 0·log\ \frac{0}{q}=0,p·log\ \frac{p}{0}=∞ 0⋅log q0=0,p⋅log 0p=∞,一般地, D ( p ∣ ∣ q ) ≠ D ( q ∣ ∣ p ) D(p||q)\neq D(q||p) D(p∣∣q)=D(q∣∣p),且 D ( p ∣ ∣ q ) ≥ 0 D(p||q)\ge0 D(p∣∣q)≥0(等号成立的充要条件为对所有的 x ∈ X x\in\mathcal{X} x∈X都有 p ( x ) = q ( x ) p(x)=q(x) p(x)=q(x))
1.3.2 互信息
互信息是一个随机变量包含的关于另一个随机变量的信息量的度量。设两个随机变量
(
X
,
Y
)
(X,Y)
(X,Y)的联合分布为
p
(
x
,
y
)
p(x,y)
p(x,y),边际分布分别为
p
(
x
)
p(x)
p(x),
p
(
y
)
p(y)
p(y),定义互信息
I
(
X
,
Y
)
I(X,Y)
I(X,Y)为联合分布
p
(
x
,
y
)
p(x,y)
p(x,y)与乘积分布
p
(
x
)
⋅
p
(
y
)
p(x)·p(y)
p(x)⋅p(y)的相对熵,即
I
(
X
;
Y
)
=
∑
x
∈
X
∑
y
∈
Y
p
(
x
,
y
)
log
p
(
x
,
y
)
p
(
x
)
⋅
p
(
y
)
I(X;Y)=\sum_{x\in\mathcal{X}}\sum_{y\in\mathcal{Y}}p(x,y)\ \log\frac{p(x,y)}{p(x)·p(y)}
I(X;Y)=x∈X∑y∈Y∑p(x,y) logp(x)⋅p(y)p(x,y)
=
E
p
(
x
,
y
)
log
p
(
X
,
Y
)
p
(
X
)
⋅
p
(
Y
)
=E_{p(x,y)} \log\frac{p(X,Y)}{p(X)·p(Y)}
=Ep(x,y)logp(X)⋅p(Y)p(X,Y)由定义可知,互信息关于
X
,
Y
X,Y
X,Y对称,即
I
(
X
;
Y
)
=
I
(
Y
;
X
)
I(X;Y)=I(Y;X)
I(X;Y)=I(Y;X),同时我们也可知互信息
I
(
X
;
Y
)
I(X;Y)
I(X;Y)、熵
H
(
X
)
H(X)
H(X)和
H
(
Y
)
H(Y)
H(Y)、联合熵
H
(
X
,
Y
)
H(X,Y)
H(X,Y)、条件熵
H
(
X
∣
Y
)
H(X|Y)
H(X∣Y)和
H
(
Y
∣
X
)
H(Y|X)
H(Y∣X)具有如下关系:
I
(
X
;
Y
)
=
H
(
X
)
+
H
(
Y
)
−
H
(
X
,
Y
)
I(X;Y)=H(X)+H(Y)-H(X,Y)
I(X;Y)=H(X)+H(Y)−H(X,Y)
=
H
(
X
)
−
H
(
X
∣
Y
)
=H(X)-H(X|Y)
=H(X)−H(X∣Y)
=
H
(
Y
)
−
H
(
Y
∣
X
)
=H(Y)-H(Y|X)
=H(Y)−H(Y∣X)
=
I
(
Y
;
X
)
=I(Y;X)\ \ \ \ \ \ \ \ \ \ \ \ \ \ \
=I(Y;X)
I
(
X
,
X
)
=
H
(
X
)
I(X,X)=H(X)\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \
I(X,X)=H(X)
当然,互信息具有非负性,
I
(
X
,
Y
)
≥
0
I(X,Y)\ge0
I(X,Y)≥0,当且仅当
X
X
X和
Y
Y
Y相互独立时等号成立.
两个随机变量互信息与熵的关系图:
由图可知由以下不等式成立,
H ( X ∣ Y ) ≤ H ( X ) H(X|Y)\le H(X) H(X∣Y)≤H(X)及其推广 H ( X i ∣ X i − 1 , . . . , X 1 ) ≤ H ( X i ) H(X_i|X_{i-1},...,X_1)\le H(X_i) H(Xi∣Xi−1,...,X1)≤H(Xi) H ( X , Y ) ≤ H ( X ) + H ( Y ) H(X,Y)\le H(X)+H(Y) H(X,Y)≤H(X)+H(Y)及其推广 H ( X 1 , . . . , X n ) ≤ ∑ i = 1 n H ( X i ) H(X_1,...,X_n)\le \sum_{i=1}^nH(X_i) H(X1,...,Xn)≤i=1∑nH(Xi)上述不等式表明:条件增加,随机变量的不确定性下降,对应的熵减少。
1.3.3 条件互信息
设随机变量 X , Y , Z X,Y,Z X,Y,Z的联合分布为 p ( x , y , z ) p(x,y,z) p(x,y,z),则给定 Z Z Z条件下 X X X和 Y Y Y的条件互信息为 I ( X ; Y ∣ Z ) = ∑ z ∈ Z p ( z ) ∑ x ∈ X ∑ y ∈ Y p ( x , y ∣ z ) log p ( x , y ∣ z ) p ( x ∣ z ) p ( y ∣ z ) I(X;Y|Z)=\sum_{z\in\mathcal{Z}}p(z)\sum_{x\in\mathcal{X}}\sum_{y\in\mathcal{Y}}p(x,y|z)\log \frac{p(x,y|z)}{p(x|z)p(y|z)} I(X;Y∣Z)=z∈Z∑p(z)x∈X∑y∈Y∑p(x,y∣z)logp(x∣z)p(y∣z)p(x,y∣z)
性质
同样具有以下关系: I ( X ; Y ∣ Z ) = H ( X ∣ Z ) + H ( Y ∣ Z ) − H ( X , Y ∣ Z ) I(X;Y|Z)=H(X|Z)+H(Y|Z)-H(X,Y|Z) I(X;Y∣Z)=H(X∣Z)+H(Y∣Z)−H(X,Y∣Z) = H ( X ∣ Z ) − H ( X ∣ Y , Z ) =H(X|Z)-H(X|Y,Z) =H(X∣Z)−H(X∣Y,Z) = H ( Y ∣ Z ) − H ( Y ∣ X , Z ) =H(Y|Z)-H(Y|X,Z) =H(Y∣Z)−H(Y∣X,Z) = I ( Y ; X ∣ Z ) =I(Y;X|Z)\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ =I(Y;X∣Z)
非负性: I ( X ; Y ∣ Z ) ≥ 0 I(X;Y|Z)\ge0 I(X;Y∣Z)≥0,当且仅当 Z Z Z条件下 X X X和 Y Y Y互相独立.
类似于熵的链法则: I ( X 1 , X 2 , . . . , X n ) = ∑ i = 1 n I ( X i ; Y ∣ X i − 1 , X i − 2 , . . . , X 1 ) I(X_1,X_2,...,X_n)=\sum^n_{i=1}I(X_i;Y|X_{i-1},X_{i-2},...,X_{1}) I(X1,X2,...,Xn)=i=1∑nI(Xi;Y∣Xi−1,Xi−2,...,X1)
马氏链
设随机变量 X , Y , Z X,Y,Z X,Y,Z的联合分布为 p ( x , y , z ) p(x,y,z) p(x,y,z),则当 p ( x , y ∣ z ) = p ( x ∣ z ) p ( y ∣ z ) p(x,y|z)=p(x|z)p(y|z) p(x,y∣z)=p(x∣z)p(y∣z)对任意 x ∈ X , y ∈ Y , z ∈ Z x\in\mathcal{X},y\in\mathcal{Y},z\in\mathcal{Z} x∈X,y∈Y,z∈Z成立时,称在 Z Z Z条件下 X X X和 Y Y Y相互独立,记为 X ⊥ Y ∣ Z X\perp Y|Z X⊥Y∣Z,此时 X , Z , Y X,Z,Y X,Z,Y构成马氏链,记为 X → Z → Y . X→Z→Y. X→Z→Y.
易证如下不等式成立,
-
如果 X → Z → Y X→Z→Y X→Z→Y为马氏链,则 I ( X ; Y ) ≤ I ( X ; Z ) I(X;Y)\le I(X;Z) I(X;Y)≤I(X;Z)及 I ( X ; Y ) ≤ I ( Z ; Y ) . I(X;Y)\le I(Z;Y). I(X;Y)≤I(Z;Y).
-
如果 U → X → Y → V U→X→Y→V U→X→Y→V构成马氏链,则 I ( U ; V ) ≤ I ( X ; Y ) . I(U;V)\le I(X;Y). I(U;V)≤I(X;Y).