对条件熵和信息增益关系的理解

最新推荐文章于 2023-10-12 20:28:41 发布

声音

最新推荐文章于 2023-10-12 20:28:41 发布

阅读量447

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_45834080/article/details/103037238

版权

机器学习专栏收录该内容

16 篇文章 4 订阅

订阅专栏

一、信息熵

信息熵是考虑该随机变量的所有可能取值，即所有可能发生事件所带来的信息量的期望。其公式为：
在这里插入图片描述
其中 $p(x_i)$ 代表随机事件X为 $x_i$ 的概率
还有一种表示方法是：
假定当前样本集合D中第 $k$ 类样本所占的比例为 $p_k(k=1,2…，|γ|)$ ,则信息熵的公式为：

Ent(D)和上面的H(X)是相等的，Ent(D)的值越小，则D的纯度越高。

二、条件熵

表示在直到某一条件后，某一随机变量的复杂性或不确定性。
具体点的定义为：定义为X给定条件下，Y的条件概率分布的熵对X的数学期望
还是使用数据集D，假定离散属性 $a$ 有 $V$ 个可能的取值 $a^1,a^2,…，a^V$ ,若使用a来对样本集D进行划分，则会产生 $V$ 个分支结点，其中第 $v$ 个分支结点包含了 $D$ 中所有在属性 $a$ 上取值为 $a^v$ 的样本，记为 $D^v$ .
在这里插入图片描述

三、信息增益

信息增益在决策树算法中是用来选择特征的指标，信息增益越大，则这个特征的选择性越好，在概率中定义为：待分类的集合的熵和选定某个特征的条件熵之差（这里只的是经验熵或经验条件熵，由于真正的熵并不知道，是根据样本计算出来的），公式如下：
在这里插入图片描述

四、条件熵和信息增益的关系

由前三点可以很明显的看出他们之间的联系

信息增益 = 信息熵 - 条件熵

五、对于条件熵的理解

条件熵我们在上面说了一下，下面我们来通俗的理解一下：
条件熵就是：定义为X给定条件下，Y的条件概率分布的熵对X的数学期望

我们用数学的角度来看一下：
设有随机变量（X,Y），其联合概率分布为
在这里插入图片描述
条件熵H（Y|X）表示在已知随机变量X的条件下随机变量Y的不确定性。

随机变量X给定的条件下随机变量Y的条件熵H(Y|X)

对条件熵的公式进行推导：
在这里插入图片描述
注意：
条件熵，不是指定某个数或者某个变量为某个值，它所指的是期望！
因为条件熵中X也是一个变量，意思是在一个变量X的条件下（变量X的每个值都会取），另一个变量Y熵对X的期望。

六、举例来看

信息熵
在双十一，我要买一件衣服，但是不知道到底怎么样，所以我一直很纠结，在犹豫买不买，我决定买这件衣服的不确定性（熵）为3.3
条件熵
我在网上看了看衣服的评价，看看了别人的图片，我决定买这件衣服这件事的不确定性是1.6
我在线下去实体店试穿衣服后，在决定买不买。那我决定买这件衣服这件事的不确定性是0.8
信息增益
上面条件熵给出了两个：
一个是看了网上的评价，此时的信息增益是Gain1=3.3−1.6=1.7
另一个是线下试穿了衣服，此时的信息增益Gain2=3.3−0.8=2.5

声音

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
对条件熵和信息增益关系的理解

目录一、信息熵一、信息熵信息熵是考虑该随机变量的所有可能取值，即所有可能发生事件所带来的信息量的期望。其公式为：其中 p(xi)p(x_i)p(xi)代表随机事件X为 xix_ixi的概率还有一种表示方法是：假定当前样本集合D中第kkk类样本所占的比例为pk(k=1,2…，∣γ∣)p_k(k=1,2…，|γ|)pk(k=1,2…，∣γ∣),则信息熵的公式为：...
复制链接

扫一扫