Entropy（熵）、Cross_Entropy（交叉熵）、KL散度

最新推荐文章于 2024-01-21 18:21:18 发布

兜里没钱但是有纸

最新推荐文章于 2024-01-21 18:21:18 发布

阅读量7.1k

点赞数 4

文章标签：信息熵机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhang911007xing/article/details/106767072

版权

1. 信息熵（Entropy）

获得1 bit 的信息可以将不确定性减少一半（也可以说不确定性降低了2倍）

例子：

假设天气情况完全随机，有晴天、雨天两种情况，则是晴天或雨天的概率各为0.5。那么只需要1 bit ( $^{log_{2}2}$ ) 的信息就可以消除这个不确定性（用0代表晴天，1代表雨天，或者反过来也行），此时，获取1bit信息，不确定性降低2倍也就是概率乘2，0.5*2=1，变成了确定事件，消除了不确定性。

假设天气情况完全随机，有4种情况，则是每种情况的概率各为0.25。那么需要2 bit ( $^{log_{2}4}$ ) 的信息来消除这个不确定性（用00，01，10，11代表四种天气情况），此时，获取2bit信息，不确定性降低2倍再降低2倍也就是概率乘2再乘2，0.25*2*2=1，变成了确定事件，消除了不确定性。

假设天气情况完全随机，有8种情况，则是每种情况的概率各为0.125。那么需要3 bit ( $^{log_{2}8}$ ) 的信息来消除这个不确定性（用000，001，010，011，100，101，110，111代表八种天气情况），此时，获取3bit信息，不确定性降低8倍也就是概率乘8，0.125*8=1，变成了确定事件，消除了不确定性。

以上的情况为各种基本事件出现的概率相等，对于概率不等的情况，如下：

例子：

假设在某一地区，有晴天和雨天两种情况，晴天的概率为0.75，雨天的概率为0.25；那么这个时候，我们知道不同的天气所获得的信息量就不同了，先给出知道是晴天所获得的信息量和知道是雨天所获得的信息量；

晴天： $^{log_{2}(\frac{1}{0.75})}$ = 0.41 bit

雨天： $^{log_{2}(\frac{1}{0.25})}$ = 2 bit

在这个例子中，我们本身就知道明天大概率会是晴天，这时气象站告诉我们，明天是晴天，那么我们的不确定性并不会下降太多；但是我们知道明天是雨天的概率是0.25，这时气象站报道明天是雨天，那么我们获取到的信息将会是2 bit。

在这种情况下，衡量不确定性的是事件概率的倒数。思考如下，如果一个事件发生的概率越小，那么这个事件的不确定性就越大，消除这个不确定性所需要获取的信息就越多。类比，概率越小，概率的倒数越大，概率的倒数的以2为底的对数就越大。

平均而言，一天从气象台获取的信息量为：

$^{log_{2}(\frac{1}{0.25})*0.25 + log_{2}(\frac{1}{0.75})*0.75}$ = 0.81 bit

也就是说，我们平均每天需要从气象台获取0.81bit的信息来消除我们对于天气的不确定性。刚刚我们计算的，就是熵，可以看出，熵很好的衡量了事件的不确定性。Entropy（熵）的计算公式如下（就是刚才计算公式的化简）：

$H(p) = -\sum _{i}p_{i}log_{2}(p_{i})$

其中，i代表事件i， $p_{i}$ 代表该事件发生的概率。

2. 交叉熵（Cross-Entropy）

交叉熵计算公式如下：

$H(p,q) = -\sum _{i}p_{i}log_{2}(q_{i})$

其中，p代表事件真实的概率分布，q代表我们预测的概率分布。如果我们预测的概率分布与真实的概率分布相同，那么H(p,q)=H(p)，如果不相等，那么交叉熵的量就会超过熵的量，超出的这部分就被称为相对熵，更常见的称呼为KL散度（KL Divergence）。

附：二分类交叉熵公式:

$H(p,q)=-\left \{ p*log(q)+(1-p)*log(1-q) \right \}$

其中，p为真实是正例的概率，q是预测是正例的概率。

3. KL散度

公式：交叉熵 = 熵 + KL散度

$D_{KL}(p||q) = H(p,q)-H(p)$

在实际训练分类模型时，我们通常使用以e为底的对数，而不是以2为底的对数，这对训练模型并没有什么影响，因为这两者之间就是一个倍数的关系。

$log_{2}(x)=\frac{log_{e}(x)}{log_{e}(2)}$

举个栗子：

五分类问题，对于其中一个样本（ball）：

真实概率分布	0%	0%	100%	0%	0%
类别	apple	banana	ball	car	peach
预测概率分布	10%	0%	60%	0%	30%

$H(p)=1.0*log(\frac{1.0}{1.0})=0$

$H(p,q)=0*log(\frac{1}{0.1})+1.0*log(\frac{1}{0.6})+0*log(\frac{1}{0.3})=0.51$

一般直接写为：

$H(p,q)=1.0*log(\frac{1}{0.6})=0.51$

$D_{KL}(p||q) = H(p,q)-H(p)=0.51-0=0.51$

兜里没钱但是有纸

关注

4
点赞
踩
28

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。