【通信原理 入坑之路】—— 信息论部分1:什么是信息量?什么是离散信源的熵?

【通信原理 入坑之路】从今天开始又将重新恢复更新啦!今天是信息论部分的第一篇 B l o g Blog Blog !想必搞通信的,没有人不认识祖师爷香农吧,那么从今天开始我们就将一窥信息论的面貌,首先从最基本的几个概念——信息量、信息熵入手吧!

1.什么是信息量?

首先我们先从离散信源开始说起,所谓离散信源,就是它只会发送有限种符号 ( x 1 , x 2 , ⋯   , x N ) (x_1, x_2, \cdots, x_N) (x1,x2,,xN),而且每一种符号的出现都是有一定概率的: P ( x 1 ) , P ( x 2 ) , ⋯   , P ( x N ) P(x_1), P(x_2), \cdots, P(x_N) P(x1),P(x2),,P(xN),且有: ∑ i = 1 N P ( x i ) = 1 \sum_{i=1}^{N}P(x_i) = 1 i=1NP(xi)=1

那么,如果大家现在觉得抽象,那么我们做一个更加直观的类比 —— 我们假设现在的离散信源是一个新闻播报机。不过这个播报机只能播报固定个新闻,如下:

  1. 今天广州地铁正常运作
  2. 张三购买彩票中了1000万元
  3. 今天飞往北京的航班晚点

这个播报机会随机发送这三条新闻,首先我们看新闻1:本身广州地铁正常运作就是一件很正常的事情,出现故障都是小概率事件。因此新闻1本身的不确定性非常小,换句话说新闻1发生的概率很大。那么假如我们收听到了新闻1也不会觉得有多么震惊。即所发送的新闻1的消息对这个事件本身的不确定性的消除非常小。

接着我们看新闻2:买彩票中1000w这本身就是一个小概率事件,它的不确定性非常非常大,那么当我们听到这样一条新闻(消息)时,对这个事件本身的不确定性的消除就非常大

最后,新闻3:航班晚点,这个事件有一定的概率(这个概率既不是很大,也不小,至少比买彩票中1000w的概率大得多),所以当我们收听到这个消息时,会消除一定的不确定性,但是这个消除的量没有新闻2大。

因此,下面我们给出信息量的定义:

通信的目的就是要使接收者在接收到消息后,尽可能多的解除接收者对信源所存在的疑义(不确定度),因此这个被解除的不定度实际上就是在通信中所要传送的信息量。

那么有了定义,我们再看回刚刚的例子,如果我们听到了新闻1,那么由于这个事件发生的概率很大,所以其实获得的信息量是很少的;当听到新闻2时,由于中彩票事件概率很小,所以收到的信息量很大。而新闻3的信息量则介于两者之间。

另外,在刚刚的讨论里面,我们假设信源发送的都是新闻、事件。但当然信源发送的东西远远不止于此。根据我们概率论里面的知识,我们可以把这些复杂的情况统一用随机变量 (例如 X)来表示,X也可以称为符号

而且我们也发现了 —— 信息量应该是事件概率的函数,而且事件的概率越高,信息量越小。那么这里我就直接给出符号 x i x_i xi 信息量的函数: I ( x i ) = − l o g 2 p ( x i ) I(x_i) = -log_{2}p(x_i) I(xi)=log2p(xi)


2. 什么是信息熵?

我们定义:熵就是信源中每个符号所含的统计平均信息量。(既然说到了:平均,这不是和我们在概率论里面所说的“期望” 的概念非常相似吗!所以,熵的计算就是每一个符号信息量的期望!)

H ( X ) = − ∑ i = 1 N p ( x i ) I ( x i ) = − ∑ i = 1 N p ( x i ) l o g   p ( x i ) H(X) = -\sum_{i=1}^Np(x_i)I(x_i) = -\sum_{i=1}^Np(x_i)log\space p(x_i) H(X)=i=1Np(xi)I(xi)=i=1Np(xi)log p(xi)

上述是针对一个离散信源的,那么我们扩展一下 —— 如果有两个离散信源,那么两个信源的熵是什么呢?

我们假设:信源1的符号集是: { x 1 , x 2 , ⋯   , x N } \{x_1, x_2, \cdots,x_N\} {x1,x2,,xN};信源2的符号集是: { y 1 , y 2 , ⋯   , y M } \{y_1, y_2, \cdots, y_M\} {y1,y2,,yM},那么如果两个信源是同时发送符号的,那么某一个时刻,他们所发送的符号就是: x i y j x_iy_j xiyj,发送符号 x i y j x_iy_j xiyj的概率就应该是: p ( x i y j ) p(x_iy_j) p(xiyj)。这是不是和联合概率分布很像了!因此,我们也有 “联合熵” 的表述!

首先这里,我们依葫芦画瓢,就可以得到符号 x i y j x_iy_j xiyj 的信息量: I ( x i y j ) = − l o g   p ( x i y j ) I(x_iy_j) = -log\space p(x_iy_j) I(xiyj)=log p(xiyj)

所以两个离散信源的联合熵我们可以定义为: H ( X Y ) = − ∑ i = 1 N ∑ j = 1 M p ( x i y j ) l o g   p ( x i y j ) H(XY) = -\sum_{i=1}^N\sum_{j=1}^Mp(x_iy_j)log\space p(x_iy_j) HXY)=i=1Nj=1Mp(xiyj)log p(xiyj)

可以证明:如果两个离散信源是独立的,那么有: H ( X Y ) = H ( X ) + H ( Y ) H(XY) = H(X) + H(Y) H(XY)=H(X)+H(Y)

其实,和概率的概念非常类似,熵里面也还有 “条件熵” 这一说法。什么情况下会有条件熵呢?—— 两个离散信源之间并不一定是独立的,而是具有一定的相关性,还是以上面的两个信源为例,如果已知了一个随机变量Y,那么另一个随机变量X的不确定性会降低。

我们下面给出定义:

  1. 随机变量X的条件熵: H ( X ∣ Y ) = − ∑ i = 1 N ∑ j = 1 M p ( x i y j ) l o g   p ( x i ∣ y j ) H(X|Y) = -\sum_{i=1}^N\sum_{j=1}^Mp(x_iy_j) log\space p(x_i|y_j) H(XY)=i=1Nj=1Mp(xiyj)log p(xiyj)
    它的物理意义可以理解为:当已知Y时,X的每个符号仍然具有的平均不确定性。

那么,联合熵和条件熵之间有什么关联呢?首先我们试着从直观的角度思考:联合熵 H ( X Y ) H(XY) H(XY) 就是度量一个联合分布的随机系统的不确定度,那么我们现在就假设系统中的两个随机变量 X , Y X, Y X,Y 分别是两个信源发送的符号。而这两个信源都会分别同步发送各自的符号。如果信源 1 有 M M M种符号;信源 2 有 N N N 种符号,那么同一时间两个信源发送的符号组合就一共有: M × N M \times N M×N 个。概率分布就是联合概率 p ( x i y j ) p(x_iy_j) p(xiyj)。那么联合熵的表达是不是可以理解为这样一个直观的过程:我们可以先观察一个随机变量 X X X 获取信息量,观察完后,我们可以在拥有这个信息量的基础上观察第二个随机变量 Y Y Y 的信息量。 可以表示为: H ( X Y ) = H ( X ) + H ( Y ∣ X ) H(XY) = H(X) + H(Y|X) H(XY)=H(X)+H(YX)

而根据概率里面的知识,我们也能够想到:先观测哪一个随机变量对信息量的影响应该是一样的,也就是说我可以先观测 X 也可以先观测 Y,即: H ( X Y ) = H ( Y ) + H ( X ∣ Y ) H(XY) = H(Y) + H(X|Y) H(XY)=H(Y)+H(XY)

值得注意的是,这里的X, Y也不一定非得是两个信源的随机变量,他们也可以是一个系统的发送和接受,例如 x i x_i xi 它就可以表示信源发送的某一个符号;而 y j y_j yj 就可以表示信宿接收到的某个符号。

OK!这就是本次博文的全部内容,下一篇 B l o g Blog Blog 里面,我们将分析离散信道模型的表示以及信道的容量。

©️2020 CSDN 皮肤主题: 游动-白 设计师:上身试试 返回首页