机器学习的信息量，熵，交叉熵，相对熵(KL散度)，条件熵，联合熵，互信息的区别

最新推荐文章于 2023-05-07 16:13:00 发布

刺猬文川Zivid

最新推荐文章于 2023-05-07 16:13:00 发布

阅读量520

点赞数

分类专栏：学习笔记文章标签：概率论机器学习深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zivid_liu/article/details/120308072

版权

学习笔记专栏收录该内容

9 篇文章 3 订阅

订阅专栏

机器学习

信息量

信息量的大小可以衡量事件的不确定性或发生的惊讶程度，具体事件的信息量随其概率的递增而递减，且不能为负。

$x=x_i，H(x)=-logp(x)$

信息熵（熵）

对于一个随机变量X，它的所有可能取值的信息量的期望称为信息熵。熵是服从某一特定概率分布事件的理论最小平均编码长度。通常P描述样本的真实分布，Q描述预测分布。

$离散变量:H(x)=-∑_{x∈X} p(x) log⁡p(x) …………(1)$
$连续变量：H(x)=-∫_{x∈X}p(x) log p⁡(x)dx$
于是，如果随机变量的取值越多，那么它的信息熵越大。如果取值越均匀，信息熵越大。

条件熵

在随机变量Y条件下，X的条件概率分布的熵对Y的数学期望
$H(X|Y)=-∑_{x∈X}p(x) ∑_{y∈Y}p(y│x) log p(y│x)$

联合熵

在随机变量X和Y条件下的数学期望
$H(X,Y)=-∑_{x,y}p(x,y) log p(x,y)$

互信息（信息增益）

一个随机变量由于已知另一个随机变量而减少的不确定性。即两个随机变量引入一个后能给另一个带来多少信息。互信息=信息熵-条件熵
$I (X ∣ Y) = H (Y) - H (Y ∣ X)$

交叉熵

使用H(P, Q)表示，意味着使用P计算Q的编码长度。描述P和Q的相似程度。
除了P=Q，有H(P,Q)=H(Q,P)=H( P )

$H(p,q)=-∑_{i=1}^n p(x) log⁡ q(x)………..(2)$

相对熵Kullback–Leibler divergence(KL散度)

描述两个概率分布的差异，是非对称的。
KL散度是用来度量使用基于Q的编码来编码来自P的样本平均所需的额外的比特个数
而往往有真实值=预测值+信息增量，则这种信息增量D_kl可表示为：
$D_{kl} (p||q)=∑_{i=1}^np(x) log⁡\frac{p(x )}{q(x)} =H(p,q)-H(p)…………(3)$
由公式（3）得出：相对熵=交叉熵-信息熵。
n为事件的所有可能性，KL散度越小，表示q与p分布越靠近。

性质：

尽管KL散度从直观上是个度量或距离函数，但它并不是一个真正的度量或者距离，因为它不具有对称性，即 $D_{kl}(p||q) ≠D_{kl}(q||p)$ ；且KL散度不满足三角距离公式，两边之和大于第三边，两边之差小于第三边。
相对熵的值为非负值，即 $D_{kl}(p||q) ≥0$ .

Tips：在机器学习中评估真实数据与预测值的差距，使用 $D_{kl}$ 刚刚好，但由于前一部分真实值P的信息熵不变，在优化过程中只需要关注交叉熵就可以了。所以在机器学习中直接使用交叉熵做损失loss。

刺猬文川Zivid

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
机器学习的信息量，熵，交叉熵，相对熵(KL散度)，条件熵，联合熵，互信息的区别

机器学习的信息量，熵，交叉熵，相对熵(KL散度)，条件熵，联合熵，互信息的区别信息量信息量的大小可以衡量事件的不确定性或发生的惊讶程度，具体事件的信息量随其概率的递增而递减，且不能为负。H(x)=-logp(x)信息熵（熵）对于一个随机变量X，它的所有可能取值的信息量的期望称为信息熵。熵是服从某一特定概率分布事件的理论最小平均编码长度。通常P描述样本的真实分布，Q描述预测分布。离散变量:H(x)=-∑_(x∈X)▒〖p(x) log⁡p(x) 〗…………(1)连续变量：H(x)=-∫_(x∈
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。