信息论基础 学习笔记(1)
前提
信息论主要的研究对象是关于随机变量的信息熵和信道。这里面假设了几点:
- 存在信息量,它只与随机变量的概率分布有关,满足可加性等性质
- 信道的本质是密度转移矩阵
这里的信息与0或1出现的顺序无关,只与一列01序列中的概率有关。我们首先定义1比特(bit)(其实信息无关01序列,其他的也可以,这里仅是举例)
1 b i t 的 信 息 量 : = 区 分 一 枚 均 匀 的 硬 币 是 正 是 反 所 需 要 的 信 息 量 1 bit的信息量 := 区分一枚均匀的硬币是正是反所需要的信息量 1bit的信息量:=区分一枚均匀的硬币是正是反所需要的信息量
这其实是一种形象的说法,而且是一种自证,并不严格。但是易于理解。
自信息
接下来我们定义 自信息 (self-information),这其实是非常重要的概念,却常常不被重视。
I p ( X = x i ) = log 1 p ( X = x i ) I_p(X=x_i)=\log\frac{1}{p(X=x_i)} Ip(X=xi)=logp(X=xi)1
其中,X为随机变量,x_i为随机变量的某个取值,常常x_i为0或1. I的下表表达的是X的概率分布按照 X ∼ p ( X ) X\sim p(X) X∼p(X) 的方式分布的。I 表示的是自信息,意思是一个变量的值先验就是x_i,但是我们不知道,我们知道的是它出现的概率为 p ( X = x i ) p(X=x_i) p(X=xi), 此时需要识别出它所需要的信息量就是如上表达的自信息。同样的我们可以定义联合自信息:
I p ( X = x i , Y = y j ) = log 1 p ( X = x i , Y = y j ) I_p(X=x_i,Y=y_j)=\log\frac{1}{p(X=x_i,Y=y_j)} Ip(X=xi,Y=yj)=logp(X=xi,Y=yj)1
如果X与Y独立,则:
I p ( X = x i , Y = y j ) = log 1 p ( X = x i ) + log 1 p ( X = y i ) = I p ( X = x i ) + I p ( Y = y j ) \begin{aligned} I_p(X=x_i,Y=y_j)&=\log\frac{1}{p(X=x_i)}+\log\frac{1}{p(X=y_i)}\\ &=I_p(X=x_i)+I_p(Y=y_j) \end{aligned} Ip(X=xi,Y=yj)=logp(X=xi)1+logp(X=yi)1=Ip(X=xi)+Ip(