关于信息熵基尼不纯度

最新推荐文章于 2025-03-18 13:57:37 发布

woheni3

最新推荐文章于 2025-03-18 13:57:37 发布

阅读量470

点赞数 1

文章标签：机器学习

1、信息熵

信息论中的信息量和信息熵。

信息量：

信息量是对信息的度量，就跟温度的度量是摄氏度一样，信息的大小跟随机事件的概率有关。

香农定义的一个事件的信息信息量为：I(X) = log2(1/p) 其中p为事件X发生的概率

信息熵：Entropy

一个随机变量 X 可以代表n个随机事件，对应的随机变为X=xi,

那么熵的定义就是 X的加权信息量。

H(x) = p(x1)I(x1)+…+p(xn)I(x1)

= p(x1)log2(1/p(x1)) +…..+p(xn)log2(1/p(xn))

= -p(x1)log2(p(x1)) - ……..-p(xn)log2(p(xn))

其中p(xi)代表xi发生的概率

例如有32个足球队比赛，每一个队的实力相当，那么每一个对胜出的概率都是1/32

那么要猜对哪个足球队胜出非常困难，

这个时候的熵H(x) = 32 * (1/32)log(1/(1/32)) = 5

熵也可以作为一个系统的混乱程度的标准

试想如果32个队中有一个是ac米兰，另外31个对是北邮计算机1班队，2班，…31班

那么几乎只有一个可能 ac米兰胜利的概率是100%，其他的都是0%，这个系统的熵

就是 1*log(1/1) = 0. 这个系统其实是有序的，熵很小，而前面熵为5 系统处于无序状态。

2、基尼不纯度

基尼不纯度的大概意思是一个随机事件变成它的对立事件的概率

例如一个随机事件X ，P(X=0) = 0.5 ,P(X=1)=0.5

那么基尼不纯度就为 P(X=0)*(1 - P(X=0)) + P(X=1)*(1 - P(X=1)) = 0.5

一个随机事件Y ，P(Y=0) = 0.1 ,P(Y=1)=0.9

那么基尼不纯度就为P(Y=0)*(1 - P(Y=0)) + P(Y=1)*(1 - P(Y=1)) = 0.18

很明显 X比Y更混乱，因为两个都为0.5 很难判断哪个发生。而Y就确定得多，**Y=1**发生的概率很大 , 而基尼不纯度也就越小。

所以基尼不纯度也可以作为衡量系统混乱程度的标准

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

woheni3

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

信息熵与基尼不纯度

qq_40954268的博客

04-28

293

1、信息熵 信息论中的信息量和信息熵。信息量：信息量是对信息的度量，就跟温度的度量是摄氏度一样，信息的大小跟随机事件的概率有关。香农定义的一个事件的信息信息量为：I(X) = log2(1/p) 其中p为事件X发生的概率 信息熵：Entropy 一个随机变量 X 可以代表n个随机事件，对应的随机变为X=xi, 那么熵的定义就是 X的加权信息量。 H(x) = p(x1)I(x1)+…+p(xn)I(x1) = p(x1)log2(1/p(x1)) +…..+p(xn)log2(1/p(xn))

决策树算法笔记整理1 - 如何划分？（信息熵，不纯度及信息增益）

Sevieryang/FinTech/Statistics/Quant

01-24

1万+

比特化假设存在离散随机变量X，取值与概率如下：取值概率 A 1/4 B 1/4 C 1/4 D 1/4 现在有一组由X变量组成的序列：BACADDCBAC……，如果现在希望将这个序列进行网络传输，我们可以将每种取值使用两个位进行编码：取值编码 A 00 B 01 C 10 D 11 编码后，我们可以得到这样的序列：01001.

参与评论您还未登录，请先登录后发表或查看评论

信息量，信息熵，纯度-附件资源

03-02

信息量，信息熵，纯度-附件资源

机器学习中的两个概念： 信息熵 和基尼不纯度

anya0204的博客

07-29

849

1、信息熵：一个随机变量 X 可以代表n个随机事件，对应的随机变为X=xi, 那么熵的定义就是 X的加权信息量。 H(x) = p(x1)I(x1)+...+p(xn)I(x1) = p(x1)log2(1/p(x1)) +.....+p(xn)log2(1/p(xn)) = -p(x1)log2(p(x1)) - ........-p...

决策树中的基尼指数

热门推荐

十四不是八的博客

03-04

1万+

1、信息熵 信息论中的信息量和信息熵。信息量：信息量是对信息的度量，就跟温度的度量是摄氏度一样，信息的大小跟随机事件的概率有关。例如：在哈尔滨的冬天，一条消息说：哈尔滨明天温度30摄氏度，这个事件肯定会引起轰动，因为它发生的概率很小（信息量大）。日过是夏天，“明天温度30摄氏度”可能没有人觉得是一个新闻，因为夏天温度30摄氏度太正常了，概率太大了（信息点太小

决策树

touchmybody的专栏

03-16

1370

决策树是一种简单的机器学习方法。决策树经过训练之后，看起来像是以树状形式排列的一系列if-then语句。一旦我们有了决策树，只要沿着树的路径一直向下，正确回答每一个问题，最终就会得到答案。沿着最终的叶节点向上回溯，就会得到一个有关最终分类结果的推理过程。决策树： 1 2 3 4 5 6 7 class

决策树，采用基尼不纯度算法.zip

04-25

2. C4.5算法：是ID3的改进版，用基尼不纯度替代了信息熵，并且能够处理连续和缺失值问题。 3. CART算法：分类与回归树（Classification and Regression Trees），不仅用于分类问题，还可以处理回归问题。CART同样...

基尼系数和信息熵的概念和公式

lzj50002801的博客

09-26

2795

一、GINI系数（基尼系数）衡量数据的不纯度或者不确定性。值越大样本集合的不确定性也越大。 G=1−∑i=1kp12 G= 1-\sum_{i=1}^kp1^2 G=1−i=1∑kp12 GINI指标：取值范围（0-0.5）基于GINI指标的算法：Cart 二、INFO (信息熵) 信息熵：对信息的量化度量，反映信息所携带的信息量大小。基于INFO指标的算法：ID3、C4.5。信息增益增益率指标（C4.5）错误率（取值范围：0.5-1） ...

基尼不纯度：如何用它建立决策树？

读芯术的博客

01-12

1085

全文共1031字，预计学习时长3分钟图源：unsplash 决策树是机器学习中使用的最流行和功能最强大的分类算法之一。顾名思义，决策树用于根据给定的数据集做出决策。也就是说，它有助于选择适当的特征以将树分成类似于人类思维脉络的子部分。为了有效地构建决策树，我们使用了熵/信息增益和基尼不纯度的概念。让我们看看什么是基尼不纯度，以及如何将其用于构建决策树吧。什么是基尼不纯度？ 基尼不纯度是决策树算法中用于确定根节点的最佳分割以及后续分割的方法。这是拆分决策树的最流行、最简单的方法。它仅适.

分类树（信息熵与基尼指数）

壮壮不太胖的学习笔记

06-01

3862

文章目录一，决策树的直观理解二，分类树2.1 信息熵2.2 条件信息熵示例2.3 基尼指数（Gini不纯度）示例一，决策树的直观理解二，分类树 2.1 信息熵 信息熵是用来衡量信息不确定性的指标，不确定性是一个事件出现不同结果的可能性。（越小越好）计算如下：其中：P(X=i)为随机变量x取值为i的概率举个例子，如下：可以看出，第一种的不确定性更高（信息熵较大） 2.2 条件信息熵 条件熵：在给定随机变量Y的条件下，随机变量X的不确定性信息增益：信息熵 - 条件熵，代表在一个条件下，信息

信息量，信息熵，纯度

醉糊涂仙的博客

06-07

4599

如果看不懂博文，请阅读《信息论基础》一看便懂。链接：https://pan.baidu.com/s/1T7rS4owM2nU_DP6rthqUPA 提取码：zu9s （1）消息消息是实体，信息是抽象的。可以从消息中获取信息。消息的表现形式可以是：语言，符号，文字，图片（2）信息信息是抽象的，消息是信息的载体。举例：如果把某个人说的话看成是消息的话，那他话中传递的意思就是信...

机器学习（22）---信息熵、纯度、条件熵、信息增益

m0_62881487的博客

10-12

2721

好的条件就是信息增益越大越好，即变化完后熵越小越好（熵代表混乱程度，最大程度地减小了混乱）。因此我们在树分叉的时候，应优先使用信息增益最大的属性，这样降低了复杂度，也简化了后边的逻辑。信息的混乱程度越大，不确定性越大，信息熵越大；对于纯度，就是信息熵越大，纯度越低。熵可以表示样本集合的不确定性，熵越大，样本的不确定性就越大。2. 纯度的通俗理解：一个盒子里只有白球，说明这个盒子很纯，纯度很高。，是信息量的差值，表示此条件对于信息熵减少的程度。}，都是男的，那么就说这个集合纯度很高。的条件概率分布的熵对。

熵、基尼不纯度、KL、互信息

Sigh～

09-19

2853

对于一个分类，判断它本身是否“纯净”，可以用熵、基尼不纯度 遇到两个分布的距离，可以用KL 判断两个量的相关性，比如某个特征与某个类别是否有关系，可以用互信息（其实它与条件熵，差不多）基本内容： http://www.cnblogs.com/TtTiCk/archive/2008/06/25/1229480.html 连续型的时候： http://blog.csdn.net/daringpig/

熵互信息 Gini指数和不纯度

weixin_33897722的博客

06-27

1329

在学习决策树类的算法时，总是绕不开 信息熵、Gini指数和它们相关联的概念，概念不清楚，就很难理解决策树的构造过程，现在把这些概念捋一捋。 信息熵 信息熵，简称熵，用来衡量随机变量的不确定性大小，熵越大，说明随机变量的不确定性越大。计算公式如下：考虑二元分布的情况，当取2为对数底时，可以得到如下的函数曲线。可以看到，当p=0.5时，不确定性最大，熵的值是1，也最大，当p=0或1时，没有...

C2-4.2.2 决策树-纯度+信息熵+信息增益

weixin_46228946的博客

01-09

1995

【※※※总结】：信息熵是用来衡量给出的数据集中数据的纯度的信息熵越小，数据就越纯。通常用在机器学习分类的情况下3.2 信息熵公式。

决策树与熵、Gini不纯度计算

imyangjianwei的专栏

06-22

4249

要使用决策树，就必须计算不纯度，计算公式有熵和基尼不纯度 熵和基尼不纯度计算公式为： [img]http://dl2.iteye.com/upload/attachment/0098/3496/7248ded5-a3b7-3f10-8e10-62dec99ef209.jpg[/img] 举个例子，假设有样本： [table] ||A1|A2| |B1|2|8| ...

基尼不纯度(随机森林)

baidu_32542573的博客

06-10

6445

基尼不纯度：从一个数据集中随机选取子项，度量其被错误的划分到其他组里的概率。(书上解释) 一个随机事件变成它的对立事件的概率（简单理解）计算公式:(fi为某概率事件发生的概率) 下图是相关曲线图，可以参考数据挖掘导论的98页：从上图可以看出，基尼系数和熵之半的曲线非常接近，仅仅在45度角附近误差稍大。因此，基尼系数可以做为熵模型的一个近似替代。讲解案例：一个随...

关于信息熵 基尼不纯度

关于信息熵基尼不纯度