熵、KL散度

最新推荐文章于 2024-07-19 16:29:56 发布

远古小山

最新推荐文章于 2024-07-19 16:29:56 发布

阅读量566

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/zhulei19931019/article/details/80440880

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

一、信息熵（entropy）

又称为熵，为已知概率分布的字符集的平均编码bit数。
根据shannon的信息论，给定一个字符集的概率分布，我们可以设计一种编码，使得表示该字符集组成的字符串平均需要的比特数最少。假设这个字符集是X，对 $x_i$ ∈X，其出现概率为P(x)，每个字符 $x_i$ 需要的编码长度为 $\log \frac{1}{x_i}$ ，那么其最优编码平均需要的比特数等于这个字符集的熵,即：

H (X) = \sum i = 1 n p (x i) log 2 1 x i = - \sum i = 1 k p (x i) log 2 x i

$H(X) = \sum_{i=1}^{n}p(x_i)\log_2 \frac{1}{x_i} = -\sum_{i=1}^{k}p(x_i)\log_2 x_i$
信息熵反应了一个系统的有序化程度，一个系统越是有序，那么它的信息熵就越低，反之就越高

二、KL散度(KL Divergence)

1.定义：

又称为相对熵（relative entropy），交叉熵(cross entropy)，信息增益（information gain），信息散度（information divergence）。
KL散度是两个概率分布P和Q差别的非对称性的度量。
KL散度是用来度量使用基于分布Q(x)的编码来编码来自分布P(x)的样本平均所需的额外的比特个数。 典型情况下，P表示数据的真实分布，Q表示数据的理论分布，模型分布，或P的近似分布。
其物理意义是：在相同事件空间里，概率分布P(x)的事件空间，若用概率分布Q（x）编码时，平均每个基本事件（符号）编码长度增加了多少比特。
KL散度公式如下:

D (p | | q) = \sum i = 1 n p (x i) log 2 p ( x ) q ( x )

$D(p||q)= \sum_{i=1}^{n}p(x_i)\log_2 \frac{p(x)}{q(x)}$

2. 相对熵的性质

1）尽管KL散度从直观上是个度量或距离函数，但它并不是一个真正的度量或者距离，因为它不具有对称性，即

D (p | | q)! = D (q | | p)

$D(p||q)!=D(q||p)$
2)相对熵的值为非负值，即

D (p | | q) > = 0

$D(p||q)>=0$
直观是来说，因为熵H(p)是p(x)分布的最优编码，其他编码所需要的bit数肯定要大于p(x)的熵H(p)。
3. 相对熵的应用
相对熵可以衡量两个随机分布之间的距离，当两个随机分布相同时，它们的相对熵为零，当两个随机分布的差别增大时，它们的相对熵也会增大。所以，相对熵（KL散度）可以用于比较文本的相似度，先统计出词的频率，然后计算KL散度就行了。另外，在多指标系统评估中，指标权重分配是一个重点和难点，通过相对熵可以处理。

参考地址：
https://blog.csdn.net/scw1023/article/details/59109922