文章目录
信息的概念
以香农为代表的学者的观点:
信息是对不确定性的度量。
其中,不确定性可以由概率的方式表达。
人们可以通过对不确定性的消除来获取信息。
信息是在一组不确定性的选择中做出选择时产生的东西。
图像处理领域:
降维后的特征向量。
目前没有统一的定义。
信息论的贡献
1948年以前,对通信系统的工作方式,有着经验式、模糊的认识。
信息论给出了:
- 信息量的定义;
- 通信系统的模型。
定义:
信息来自于随机事件的选择,对于不确定性的消除。
通信系统:
信源(信息的源头);
信道(概率转移的矩阵)。
随机变量的自信息
随机变量
X
,
Y
,
Z
X,Y,Z
X,Y,Z
随机变量的取值
x
,
y
,
z
x,y,z
x,y,z
集合
X
,
Y
,
Z
\mathcal{X},\mathcal{Y},\mathcal{Z}
X,Y,Z
集合的势
∣
X
∣
,
∣
Y
∣
,
∣
Z
∣
|\mathcal{X}|,|\mathcal{Y}|,|\mathcal{Z}|
∣X∣,∣Y∣,∣Z∣
随机变量的概率分布
P
X
(
x
)
P_X(x)
PX(x)
联合概率
P
X
Y
(
x
,
y
)
P_{XY}(x,y)
PXY(x,y)
长度为n的随机变量序列
X
n
X^n
Xn
数值序列
x
n
x^n
xn
长度为
j
−
i
+
1
j-i+1
j−i+1的随机变量序列
X
i
j
X^j_i
Xij
熵和互信息是定义在随机变量、随机分布上的。
自信息的定义
直觉的定义:
信息量等于传输该信息所用的代价;
两个相同信源产生的信息量两倍于单个信源的信息量。
如何理解“信息”
传统意义上的信息是过去时,可以理解为“已经说了什么”。
信息论中的信息是未来时,可以理解为“还能说什么”。
相对应的,信息量可以理解为“还要说多少”。
理解信息是对不确定性的消除
消除的不确定性越多,获得的信息量越大。
Examples:
天气预报信息量:
夏天预报下雪和冬天预报下雪,哪个消息含有更大的信息量?
夏天预报下雪。小概率事件,因为发生的可能性比较小,所以说要完全消除不确定性(夏天肯定下雪),还需要很多信息,所以信息量大。
把信息看作随机事件的消除所引入的一个变化的话,那么信息量就和随机事件的概率相关。概率越小,引入的信息量越大。
自信息的性质
四个基本问题:
- 随机性与概率的关系:概率越低,随机事件的自信息越大。
- 概率为1的事件的信息量:确定事件,自信息为0,因为不存在随机事件的消除。
- 概率为0的事件的信息量:自信息为∞。
- 两个独立事件的联合信息量:自信息为两个事件信息量的算术和。
自信息的数学表示
自信息和信息量可以等价理解,自信息是用于衡量单一事件发生时所包含的信息量的多寡。
I ( a i ) = log 1 P ( a i ) I(a_i) = \log\frac{1}{P(a_i)} I(ai)=logP(ai)1
对数底与信息的单位:
以2为底:bit;
以e为底:nat;
以10为底:Hart
换算关系:
1 nat = 1.44 bit
1 Hart = 3.32 bit
一般不加说明,取以2为底。
“比特”的意义
哪一个灯泡坏了?
这个随机事件的概率为 1 8 \frac{1}{8} 81,因此消除它的不确定性需要的信息量为3bit。
我们进行检测时,最坏情况下的最少次数也是3。
因此,信息量似乎是一种对消除不确定性需要进行的操作步骤数。
信息熵的定义
自信息是每一个事件的信息量;而度量一个随机系统的总的信息量,我们定义为信息熵。
信息熵将随机变量的分布等同于了一个取值。
一个随机事件等价于从随机系统的输出中观测到某一特定取值的事件。
随机系统中的每一个随机事件都有其自信息
I
(
a
i
)
I(a_i)
I(ai),针对系统,取统计平均:
∑
i
p
(
a
i
)
I
(
a
i
)
=
−
∑
i
p
(
a
i
)
log
p
(
a
i
)
\sum_ip(a_i)I(a_i)=-\sum_ip(a_i)\log p(a_i)
i∑p(ai)I(ai)=−i∑p(ai)logp(ai)
离散随机变量X的信息熵 H ( X ) H(X) H(X)定义为: H ( X ) = − ∑ x ∈ X p ( x ) log p ( x ) H(X)=-\sum_{x\in\mathcal{X}}p(x)\log p(x) H(X)=−x∈X∑p(x)logp(x)
说明:
信息熵其实是一个统计量,即随机变量的分布,而非取值。因为每一个随机事件服从一个分布,所以说,他们的期望也服从一个分布。
信息熵的唯一性定理
信息熵函数满足三个条件:
- 连续性;
- 等概率时,信息熵函数具有单调增函数的特性;
- 可加性。
也就是说,这三个条件保证了函数形式的唯一性。
定理-1:
满足上述三个条件的随机变量不确定性度量函数为:
f
(
p
1
,
p
2
,
.
.
.
,
p
N
)
=
−
C
∑
n
=
1
N
p
n
log
p
n
f(p_1,p_2,...,p_N)=-C\sum_{n=1}^Np_n\log p_n
f(p1,p2,...,pN)=−Cn=1∑Npnlogpn
可加性详细解释
可加性的含义指的是:统计独立信源X和Y的联合信源的熵等同于信源X和Y各自熵的和。
上述式子的两个信源不独立,因此稍微有一些变形。
此处的和为表示整体事件的概率分布,不是简单的加和关系。
Example:
公式一:
假设随机系统服从古典概型,共有MN个随机事件,每一个随机事件发生的可能性相等,则每一个随机事件服从分布
P
(
X
)
=
1
M
N
P(X)=\frac{1}{MN}
P(X)=MN1。
我们将每N个事件组合成一个二级随机系统,则共有M个二级随机系统。
他们的不确定性度量结果等价于M个系统的不确定性度量与M个单个不确定性系统度量与该系统的概率之积的和。
于是,在等概率分布的前提下,
g
(
S
m
)
=
m
g
(
S
)
g(S^m)=mg(S)
g(Sm)=mg(S)
信息熵的形式唯一性
公式二:
公式三 及逼近:
于是,我们得到,等概率情况下的信息熵的形式是关于对数函数的。
下面我们讨论非等概率分布下的可加性公式:
首先,我们假设一个非均匀分布的概率分布。
接下来,我们考虑大M个取值上的平均分布的情形,然后构造出服从假设分布的随机系统。
于是,证明得到非等概率情况下,信息熵的形式也是关于对数函数的。
联合熵
那么是否有和联合概率分布中类似的性质呢?
即联合分布的结果等同于单独分布的和。
Examples:
有放回的:
不放回的:
发现这种情况的信息量存在缺失,那么去哪里了呢?
条件熵
物理意义是,我们已经知道X这个随机事件的取值的情况下,Y剩余的不确定性度量的期望。
当X和Y相互独立时 H ( Y ∣ X ) = H ( X ) = H ( Y ) H(Y|X)=H(X)=H(Y) H(Y∣X)=H(X)=H(Y)。
定理-2:
H
(
X
,
Y
)
=
H
(
X
)
+
H
(
Y
∣
X
)
H(X,Y)=H(X)+H(Y|X)
H(X,Y)=H(X)+H(Y∣X)
推论:
H
(
X
,
Y
∣
Z
)
=
H
(
X
∣
Z
)
+
H
(
Y
∣
X
,
Z
)
H(X,Y|Z)=H(X|Z)+H(Y|X,Z)
H(X,Y∣Z)=H(X∣Z)+H(Y∣X,Z)
物理意义为:统一的观察结果等同于逐次的观察结果之和。
若X和Y统计独立, H ( X , Y ) = H ( X ) + H ( Y ) H(X,Y)=H(X)+H(Y) H(X,Y)=H(X)+H(Y)。
信息熵的性质
- 对称性:随机事件的发生打乱,只要随时时间服从的分布不变,信息熵的结果不会发生变化;信息熵将语义和语法进行分离,更关注于语法,只在乎每一个单词出现的概率分布,无关乎语义。
- 非负性;
- 可加性: H ( X , Y ) = H ( X ) + H ( Y ∣ X ) H(X,Y)=H(X)+H(Y|X) H(X,Y)=H(X)+H(Y∣X);
- 条件减少熵: H ( X ∣ Y ) ≤ H ( X ) H(X|Y)\le H(X) H(X∣Y)≤H(X);需要注意的是, H ( X ∣ Y = y ) ≤ H ( X ) H(X|Y=y)\le H(X) H(X∣Y=y)≤H(X)不总成立;这说明,只在统计平均的意义上减少了不确定度。
- 最大熵定理:离散随机变量X在等概率分布时,熵取得最大值。
互信息的定义
互信息用于刻画X和Y之间的相关程度。
意义为了解Y之后,对X的不确定性有多少的减少。
这是对称的,即 I ( X ; Y ) = I ( Y ; X ) I(X;Y)=I(Y;X) I(X;Y)=I(Y;X)。
我们类比协方差 C o v ( X , Y ) = E { [ X − E ( X ) ] [ Y − E ( Y ) ] } = E ( X Y ) − E ( X ) E ( Y ) Cov(X,Y)=E\{[X-E(X)][Y-E(Y)]\}=E(XY)-E(X)E(Y) Cov(X,Y)=E{[X−E(X)][Y−E(Y)]}=E(XY)−E(X)E(Y)
则互信息
I
(
X
;
Y
)
=
H
(
X
)
+
H
(
Y
)
−
H
(
X
,
Y
)
I(X;Y)=H(X)+H(Y)-H(X,Y)
I(X;Y)=H(X)+H(Y)−H(X,Y)
如果两者相互独立,则
I
(
X
;
Y
)
=
0
I(X;Y)=0
I(X;Y)=0。
如果X和Y一一映射,那么 I ( X ; Y ) = H ( X ) I(X;Y)=H(X) I(X;Y)=H(X)。
从信道角度看互信息
信道越好,传递的信息量越大,互信息越大。我们得到Y的时候对X的信息保留也越多。
其中 I ( p ; Q ) I(p;Q) I(p;Q)中的p是信道的输入 X X X的概率模型,Q是条件概率转移模型刻画的概率分布 P ( X ∣ Y ) P(X|Y) P(X∣Y)。
这与KL散度有些类似。
条件互信息非负。
给定条件Z,X和Y不一定会更加紧密地联合在一起。