一文理清楚：熵，条件熵，KL散度（相对熵），交叉熵，联合熵，信息增益，信息增益比，GINI系数

最新推荐文章于 2022-06-06 21:00:24 发布

dastu

最新推荐文章于 2022-06-06 21:00:24 发布

阅读量1k

点赞数 2

分类专栏：数据挖掘文章标签：决策树机器学习数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44467105/article/details/111059530

版权

数据挖掘专栏收录该内容

25 篇文章 0 订阅

订阅专栏

熵

熵是表示随机变量不确定性的度量。
设 $X$ 是一个有N个取值有限的随机变量，其概率分布为：
$P(X=i)=p_i ， i= 1, 2 ...N$

则随机变量X的熵为：
$H(X)=-\sum_{i=1}^Np_i \log p_i$

在这里熵的大小与 $X$ 取值的大小无关，只与 $X$ 的分布有关。

从 $H (x)$ 的取值可以得出， $0 < = H (x) < = l o g (N)$ , 当 $X$ 只有一个取值的时候， $H (x)$ 为0。当 $X$ 取值均匀分布在N个值上时， $H (x)$ 的取值为 $l o g (N)$ 。

熵越大，代表随机变量X的取值越混乱。

条件熵

条件熵 $H (Y ∣ X)$ 代表在随机变量 $X$ 确定的情况下，随机变量 $Y$ 的不确定性。
$H(Y|X)=\sum_{i=1}^Np_iH(Y|X=x_i)$

这里 $p_i$ 为随机变量 $X$ 取值为 $x_i$ 的概率。

KL散度（相对熵）

KL散度是衡量两个分布之间匹配程度的指标。

设一个随机变量 $X$ 有两个概率分布 $P (x)$ 和 $Q (x)$ ，我们可以用KL散度来衡量这两个分布的差异。
$D(p||q)=\sum_{i=1}^N p_i\log \frac{p_i}{q_i}$

KL散度也可以用来衡量预测分布和真实分布之间的差异，这时候一般用 $P (x)$ 代表真实的分布， $Q (x)$ 代表预测的分布。

KL散度的值越小，代表两个分布匹配的越好。相反KL散度的值越大，则代表两个分布差别越大。

交叉熵

将KL散度（相对熵）的公式展开
$D(p||q)=\sum_{i=1}^N p_i \log \frac{p_i}{q_i}= \sum_{i=1}^N p_i\log p_i-\sum_{i=1}^N p_i\log q_i=-H(P)+(-\sum_{i=1}^Np_i\log q_i)$

一般来说，在机器学习中 $P (x)$ 通常代表真实值，而真实值通常是不变的，所以其真实值的熵 $H (P)$ 不变，这个KL散度展开后，变化的只有后半部分，而这部分就是交叉熵。
$H(P|Q)=-\sum_{i=1}^N p_i \log q_i$

联合熵

对于随机变量X和Y，可以计算得到联合熵：
$H(X,Y)=-\sum_{x,y}p(x,y)logp(x,y)$
条件熵与联合熵之间的关系： $H (X, Y) - H (X) = H (Y ∣ X)$

信息增益

信息增益是在熵与条件熵的基础上定义出来的，常见的一个应用就是ID3决策树上的分类准则。

根据前文的定义，熵 $H (Y)$ 代表的是随机变量 $Y$ 的混乱程度。条件熵 $H (Y ∣ X)$ 代表的是随机变量 $X$ 确定时，随机变量 $Y$ 的混乱程度。

信息增益是在随机变量 $X$ 和 $Y$ 存在某种联合概率分布的情况下，确定随机变量 $X$ 后，随机变量 $Y$ 的不确定性减少的程度。

也就是用随机变量 $Y$ 的混乱程度，减去随机变量 $X$ 确定时，随机变量 $Y$ 的混乱程度：
$g (Y, X) = H (Y) - H (Y ∣ X)$

信息增益比

这里是作为C4.5决策树划分的准则，是关于ID3中信息增益的一个改进。因为从决策树的角度来说，单个特征的取值越多，带来的信息增益往往越好，因为划分的更细致。所以为了克服这一点，在C4.5决策树中，适用了信息增益比作为准则。

它与信息增益的不同就是，对于信息增益 $g (Y ∣ X)$ 来说要除于一个随机变量X（在决策树中可以认为是特征X）的熵。

$g_r(Y,X)=g(Y,X)/H(X)$
这里实际上除于X的熵，就是平衡了X取值多的问题。

GINI系数

Gini系数也是用了描述随机变量 $X$ 混乱程度的一种指标。

设 $X$ 是一个有N个取值有限的随机变量，其概率分布为：
$P(X=i)=p_i ， i= 1, 2 ...N$

则随机变量 $X$ 的GINI系数为：
$Gini(X)=1-\sum_{i=1}^Np_i^2$

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
一文理清楚：熵，条件熵，KL散度（相对熵），交叉熵，联合熵，信息增益，信息增益比，GINI系数

熵熵是表示随机变量不确定性的度量。设XXX是一个有N个取值有限的随机变量，其概率分布为：P(X=i)=pi，i=1,2...N P(X=i)=p_i ， i= 1, 2 ...NP(X=i)=pi，i=1,2...N则随机变量X的熵为：H(X)=−∑i=1Npilog⁡piH(X)=-\sum_{i=1}^Np_i \log p_iH(X)=−i=1∑Npilogpi在这里熵的大小与XXX取值的大小无关，只与XXX的分布有关。从H(x)H(x)H(x)的取值可以得出，0<=H(
复制链接

扫一扫

专栏目录

dastu CSDN认证博客专家 CSDN认证企业博客

码龄6年

33: 原创

42万+: 周排名

108万+: 总排名

4万+: 访问

: 等级

687: 积分

7: 粉丝

20: 获赞

9: 评论

106: 收藏

私信

关注

热门文章

分类专栏

NLP 1篇
社交网络 4篇
数据挖掘 25篇
爬虫
推荐算法 1篇
算法 1篇

最新评论

理解K折交叉验证
dastu: K折就是一种思想，怎么实现都行，只不过手动这样比较麻烦
理解K折交叉验证
cv小菜鸡: 楼主，请问按这样的规则手动训练k次算是k折交叉验证么
二叉树的前中后序遍历递归/非递归（python版）
m0_51693022: 中序遍历的递归写法写错了吧，递归用的函数不对呀
学习笔记——XGBoost(极端梯度提升)
dastu: gti和hti就是求导得来的
学习笔记——XGBoost(极端梯度提升)
joyes1989: 感谢分享，请教一个问题：gti和hti具体如何计算呢

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。