信息论基础学习笔记（一）——随机变量的信息度量

最新推荐文章于 2023-06-22 21:30:51 发布

因为有你mory~~

最新推荐文章于 2023-06-22 21:30:51 发布

阅读量559

点赞数 1

分类专栏：学习笔记文章标签：信息熵

本文链接：https://blog.csdn.net/weixin_44899139/article/details/109706320

版权

学习笔记专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本文介绍了信息论中的基本概念，包括自信息、熵和互信息。自信息衡量的是一个信号提供的信息量，熵是信源平均不确定性度量，而互信息则是衡量两个随机变量之间的关联程度。熵的链法则、条件熵和联合熵等概念也被详细阐述，揭示了随机变量之间不确定性关系的本质。

摘要由CSDN通过智能技术生成

1.1自信息

信源，指的是消息的来源。若信源输出的消息是以取值离散的符号形式出现，其不同符号数是有限个，或为可列无限个，则此信源称为离散信源。若输出的消息的取值是连续的，则称其为连续信源。按输出符号之间的依赖关系，也可将信源分为无记忆信源和有记忆信源。

离散信源通常用随机变量 $X$ 表示， $X$ 的可能取值，即信源的可能输出的不同符号用集合 $\chi$ 表示。如若将抛硬币这一随机试验看做一个信源的话，其取值集合即为 $\chi=\{正，反\}$ 。

要解决信息的度量问题，我们将信源发出某个信号 $x_0\in\chi$ 后所提供的信息量的多少定义为 $x_0$ 的自信息，记为 $I(x_0)$ 。自信息度量的是信号 $x_0$ 的不确定性（发生的可能性）。如果用概率 $p(x_0)$ 表示 $x_0$ 发生的概率，则 $I(x_0)$ 应该为 $p(x_0)$ 的一个函数，且满足如下公理：

非负： $I(x_0)\ge0.$
如 $p (x) = 0$ ，则 $I (x) \to \infty .$
如 $p (x) = 1$ ，则 $I (x) = 0 .$
严格单调性：如果 $p (x) > p (y)$ ，则 $I (x) < I (y) .$
如果 $p (x, y) = p (x) p (y)$ ，则 $I (x, y) = I (x) + I (y) .$

若自信息 $I (x)$ 满足上述公理，则 $I(x)=c\ log\frac{1}{p(x)}$ 其中 $c$ 为常数。

定义：若 $x\in\chi$ 有概率 $p (x)$ ，则 $x$ 的自信息为 $I(x)=log\frac{1}{p(x)}$

1.2 熵、联合熵、条件熵

1.2.1 熵

如果用随机变量代表一个信源，则熵为其平均不确定性的度量。

设随机变量 $X$ 的概率分布函数为 $p(x)=P_r\{X=x\},x\in\chi$ ， $p (x)$ 和 $p (y)$ （或 $P_X(x)$ 和 $P_Y(y)$ ）分别表示随机变量 $X$ 和 $Y$ 的概率分布函数。则离散随机变量 $X$ 的熵定义为 $H(X)=-\sum_{x\in\chi}p(x)\ log\ p(x)$
针对对数函数不同的底，熵有如下不同的单位：

底为 $2$ $\to$ 比特 $(b i t)$ .
底为 $e$ $\to$ 奈特 $(n a t)$ .
底为 $10$ $\to$ 哈特 $(h a r t l e y)$ .

注：熵仅为概率分布的函数，与 $X$ 的取值并无关系.

若用 $E_p$ 表示概率分布 $p$ 的期望， $E_pg(X)=\sum_{x\in\chi}g(x)p(x)$ 则熵可表示为随机变量 $log\frac{1}{p(x)}$ 的期望， $H(X)=E_p\ log\ \frac{1}{p(x)}$ 由此可见，熵是自信息的概率加权平均值。

熵的性质如下：

$H(X)\ge0$ ，当且仅当 $X$ 有退化分布*时等号成立.（*退化分布指的是 $P (X = c) = 1$ ）

1.2.2 联合熵

设一对随机变量 $(X, Y)$ 的联合分布为 $p(x,y)=Pr\{X=x,Y=y\},x\in\mathcal{X},y\in\mathcal{Y}$ 则定义 $(x, y)$ 的联合熵 $H (X, Y)$ 为 $H(X,Y)=-\sum_{x\in\mathcal{X}}\sum_{y\in\mathcal{Y}}p(x,y)\ log\ p(x,y)$ 或以期望形式 $H(X,Y)=-E\ log\ p(X,Y)$
联合熵的概念可进一步推广至 $n$ 维随机变量。设 $n$ 维随机向量 $X_1,X_2,...,X_n)$ 的联合分布为 $p(x_1,x_2,...,x_n)=P_r\{X_1=x_1,X_2=x_2,...,X_n=x_n\},x_1\in\mathcal{X_1},x_2\in\mathcal{X_2},...,x_n\in\mathcal{X_n}$ ，则联合熵为 $H(X_1,X_2,...,X_n)$ $=-\sum_{x_1\in\mathcal{X_1}}\sum_{x_2\in\mathcal{X_2}}...\sum_{x_n\in\mathcal{X_n}}p(x_1,x_2,...,x_n)\ log\ p(x_1,x_2,...,x_n)$

1.2.3 条件熵

设随机变量对 $(X, Y)$ 有联合分布 $p (x, y)$ ，用 $p(y|x)=Pr\{Y=y|X=x\},x\in\mathcal{X},y\in\mathcal{Y}$ 表示条件概率分布，则给定 $X = x$ 条件下 $Y$ 的熵定义为 $H(Y|X=x)=-\sum_{y\in\mathcal{Y}}p(y|x)\ log\ p(y|x)$ 用 $H (Y ∣ X)$ 来表示 $H (Y ∣ X = x)$ 关于 $X$ 的平均值，则有 $H(Y|X)=-E\ log\ p(Y|X)$

1.2.4 链法则

随机变量对的联合熵、单个随机变量的熵以及两变量的条件熵具有如下关系：

（链法则） ： $H (X, Y) = H (X) + H (Y ∣ X)$

推广至多元随机变量：

设 $X_1,X_2,...,X_n$ 的联合分布为 $p(x_1,x_2,...,x_n)$ ，则 $H(X_1,X_2,...,X_n)=\sum^n_{i=1}H(X_i|X_{i-1},...,X_1)$

1.3 相对熵和互信息

1.3.1 相对熵

相对熵是两个概率分布差异性的一种度量。定义在同一字母集合 $\mathcal{X}$ 上的两个概率分布 $p (x)$ 和 $q (x)$ 的相对熵定义为： $D(p||q)=\sum_{x\in\mathcal{X}}p(x)\ log\ \frac{p(x)}{q(x)}=E_p\ log\ \frac{p(x)}{q(x)}$ 在此，我们规定 $0·log\ \frac{0}{q}=0,p·log\ \frac{p}{0}=∞$ ，一般地， $D(p||q)\neq D(q||p)$ ，且 $D(p||q)\ge0$ （等号成立的充要条件为对所有的 $x\in\mathcal{X}$ 都有 $p (x) = q (x)$ ）

1.3.2 互信息

互信息是一个随机变量包含的关于另一个随机变量的信息量的度量。设两个随机变量 $(X, Y)$ 的联合分布为 $p (x, y)$ ，边际分布分别为 $p (x)$ ， $p (y)$ ，定义互信息 $I (X, Y)$ 为联合分布 $p (x, y)$ 与乘积分布 $p (x) \cdot p (y)$ 的相对熵，即 $I(X;Y)=\sum_{x\in\mathcal{X}}\sum_{y\in\mathcal{Y}}p(x,y)\ \log\frac{p(x,y)}{p(x)·p(y)}$ $=E_{p(x,y)} \log\frac{p(X,Y)}{p(X)·p(Y)}$ 由定义可知，互信息关于 $X, Y$ 对称，即 $I (X; Y) = I (Y; X)$ ，同时我们也可知互信息 $I (X; Y)$ 、熵 $H (X)$ 和 $H (Y)$ 、联合熵 $H (X, Y)$ 、条件熵 $H (X ∣ Y)$ 和 $H (Y ∣ X)$ 具有如下关系： $I (X; Y) = H (X) + H (Y) - H (X, Y)$ $= H (X) - H (X ∣ Y)$ $= H (Y) - H (Y ∣ X)$ $=I(Y;X)\ \ \ \ \ \ \ \ \ \ \ \ \ \ \$ $I(X,X)=H(X)\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \$
当然，互信息具有非负性， $I(X,Y)\ge0$ ，当且仅当 $X$ 和 $Y$ 相互独立时等号成立.

两个随机变量互信息与熵的关系图：

由图可知由以下不等式成立，

$H(X|Y)\le H(X)$ 及其推广 $H(X_i|X_{i-1},...,X_1)\le H(X_i)$ $H(X,Y)\le H(X)+H(Y)$ 及其推广 $H(X_1,...,X_n)\le \sum_{i=1}^nH(X_i)$ 上述不等式表明：条件增加，随机变量的不确定性下降，对应的熵减少。

1.3.3 条件互信息

设随机变量 $X, Y, Z$ 的联合分布为 $p (x, y, z)$ ，则给定 $Z$ 条件下 $X$ 和 $Y$ 的条件互信息为 $I(X;Y|Z)=\sum_{z\in\mathcal{Z}}p(z)\sum_{x\in\mathcal{X}}\sum_{y\in\mathcal{Y}}p(x,y|z)\log \frac{p(x,y|z)}{p(x|z)p(y|z)}$

性质

同样具有以下关系： $I (X; Y ∣ Z) = H (X ∣ Z) + H (Y ∣ Z) - H (X, Y ∣ Z)$ $= H (X ∣ Z) - H (X ∣ Y, Z)$ $= H (Y ∣ Z) - H (Y ∣ X, Z)$ $=I(Y;X|Z)\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \$

非负性： $I(X;Y|Z)\ge0$ ，当且仅当 $Z$ 条件下 $X$ 和 $Y$ 互相独立.

类似于熵的链法则： $I(X_1,X_2,...,X_n)=\sum^n_{i=1}I(X_i;Y|X_{i-1},X_{i-2},...,X_{1})$

马氏链

设随机变量 $X, Y, Z$ 的联合分布为 $p (x, y, z)$ ，则当 $p (x, y ∣ z) = p (x ∣ z) p (y ∣ z)$ 对任意 $x\in\mathcal{X},y\in\mathcal{Y},z\in\mathcal{Z}$ 成立时，称在 $Z$ 条件下 $X$ 和 $Y$ 相互独立，记为 $X\perp Y|Z$ ，此时 $X, Z, Y$ 构成马氏链，记为 $X \to Z \to Y .$