数学之---KL散度

最新推荐文章于 2023-05-09 17:33:34 发布

zxyhhjs2017

最新推荐文章于 2023-05-09 17:33:34 发布

阅读量779

点赞数

分类专栏：数学

数学专栏收录该内容

6 篇文章 0 订阅

订阅专栏

数据的熵

K-L散度源于信息论。信息论主要研究如何量化数据中的信息。最重要的信息度量单位是熵Entropy，一般用H表示。分布的熵的公式如下：

Entropy

上面对数没有确定底数，可以是2、e或10，等等。如果我们使用以2为底的对数计算H值的话，可以把这个值看作是编码信息所需要的最少二进制位个数bits。上面空间蠕虫的例子中，信息指的是根据观察所得的经验分布给出的蠕虫牙齿数量。计算可以得到原始数据概率分布的熵值为3.12 bits。这个值只是告诉我们编码蠕虫牙齿数量概率的信息需要的二进制位bit的位数。

可是熵值并没有给出压缩数据到最小熵值的方法，即如何编码数据才能达到最优（存储空间最优）。优化信息编码是一个非常有意思的主题，但并不是理解K-L散度所必须的。熵的主要作用是告诉我们最优编码信息方案的理论下界（存储空间），以及度量数据的信息量的一种方式。理解了熵，我们就知道有多少信息蕴含在数据之中，现在我们就可以计算当我们用一个带参数的概率分布来近似替代原始数据分布的时候，到底损失了多少信息。请继续看下节内容。↓↓↓

K-L散度度量信息损失

只需要稍加修改熵H的计算公式就能得到K-L散度的计算公式。设p为观察得到的概率分布，q为另一分布来近似p，则p、q的K-L散度为：

entropy-p-q

显然，根据上面的公式，K-L散度其实是数据的原始分布p和近似分布q之间的对数差值的期望。如果继续用2为底的对数计算，则K-L散度值表示信息损失的二进制位数。下面公式以期望表达K-L散度：

DKL1

一般，K-L散度以下面的书写方式更常见：

DKL2

注：log a - log b = log (a/b)

OK，现在我们知道当用一个分布来近似另一个分布时如何计算信息损失量了。接下来，让我们重新回到最开始的蠕虫牙齿数量概率分布的问题。

对比两种分布

首先是用均分布来近似原始分布的K-L散度：

DKL-uniform

接下来计算用二项式分布近似原始分布的K-L散度：

DKL-binomial

通过上面的计算可以看出，使用均分布近似原始分布的信息损失要比用二项式分布近似小。所以，如果要从均分布和二项式分布中选择一个的话，均分布更好些。

作者：Aspirinrin
链接：https://www.jianshu.com/p/43318a3dc715
来源：简书
简书著作权归作者所有，任何形式的转载都请联系作者获得授权并注明出处。

总结：

1.首先对概率分布公式log一下，相当于编码这个概率公式需要多少位，也可以说这个概率公式承载了多少信息量

2.然后将两个log后的分布相减，求出距离，这就是散度，即两个分布的相似度是多少

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数学之---KL散度

数据的熵K-L散度源于信息论。信息论主要研究如何量化数据中的信息。最重要的信息度量单位是熵Entropy，一般用H表示。分布的熵的公式如下：Entropy上面对数没有确定底数，可以是2、e或10，等等。如果我们使用以2为底的对数计算H值的话，可以把这个值看作是编码信息所需要的最少二进制位个数bits。上面空间蠕虫的例子中，信息指的是根据观察所得的经验分布给出的蠕虫牙齿数量。计算可以...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。