由于这学期学信息论,所以在这里做笔记,用于巩固和复习。
关于信息论的用途之类的我就不多说了,想知道的去百度或维基百科看看。
该专栏里的内容参考自Elements_of_Information_Theory-second_edition这本书的中文版。
本文主要学的是熵、相对熵和互信息。
信息
在信息论里,信息是什么?什么是信息?
信息是用来消除不确定性的东西。
不确定性越大,信息量越大。如果有人想跟你说“明天要下雨”,它可以选择给你发一串暗号(你不知怎么译码),也可以选择直接用中文跟你说。前者信息量就比后者大。为什么?主要就是看你怎么翻译这串暗号,不同的翻译方式,得到的内容不一样,即存在不确定性。
简单来说,就是你对某个事件的不确定性。
熵
熵是随机变量不确定度的度量。(符号太难打,我直接截图说明吧)
上图中我给3个不同写法的x编了编号。第一个x是一个随机变量,随机变量的意思就是它的值是无法预习确定的。第二个x是字符集(书中写的是字母表)。第三个x是字符集的一个元素,它是随机变量的一个可能的取值。
可能不好理解,举个例子,
第一个x(随机变量):明天的天气状况
第二个x(字符集):{不下雨,小雨,中雨,大雨}
第三个x:明天下雨
注:字符集可以是无穷,如自然数集
弄清楚这几个之后,就可以定义离散型随机变量X的熵了:
这里对数log的底为2。
同时约定
这里还要了解下数学期望的定义。
熵可以改写为
熵的性质
直接书本截图。
联合熵与条件熵
联合熵和条件熵的性质
链式法则
联合熵和条件熵的一个性质就是,一对随机变量的熵等于其中一个随机变量的熵加上另一个随机变量的条件熵。
推论1
这个和上式的区别就是等式两边都加上了一个条件。
推论2
相对熵与互信息
相对熵
相对熵是两个随机变量之间距离的度量。
上图的码长可能难以理解,主要是通信原理的知识。简单理解就是,如果知道某个随机分布,那么可以用平均码长为H(p)的码来描述它。但是如果我假定它的分布是q,那么会造成无效性,就需要增加码长。这个增加的码长就是相对熵。
互信息
互信息好理解得多,我就直接截图了。
熵与互信息的性质
凹与凸
这是老师上课提到的凹凸