对条件熵和信息增益关系的理解

一、信息熵

信息熵是考虑该随机变量的所有可能取值,即所有可能发生事件所带来的信息量的期望。其公式为:
在这里插入图片描述
其中 p ( x i ) p(x_i) p(xi)代表随机事件X为 x i x_i xi的概率
还有一种表示方法是:
假定当前样本集合D中第 k k k类样本所占的比例为 p k ( k = 1 , 2 … , ∣ γ ∣ ) p_k(k=1,2…,|γ|) pk(k=1,2γ),则信息熵的公式为:
在这里插入图片描述

Ent(D)和上面的H(X)是相等的,Ent(D)的值越小,则D的纯度越高。

二、条件熵

表示在直到某一条件后,某一随机变量的复杂性或不确定性。
具体点的定义为:定义为X给定条件下,Y的条件概率分布的熵对X的数学期望
还是使用数据集D,假定离散属性 a a a V V V个可能的取值 a 1 , a 2 , … , a V a^1,a^2,…,a^V a1,a2,aV,若使用a来对样本集D进行划分,则会产生 V V V个分支结点,其中第 v v v个分支结点包含了 D D D中所有在属性 a a a上取值为 a v a^v av的样本,记为 D v D^v Dv.
在这里插入图片描述

三、信息增益

信息增益在决策树算法中是用来选择特征的指标,信息增益越大,则这个特征的选择性越好,在概率中定义为:待分类的集合的熵和选定某个特征的条件熵之差(这里只的是经验熵或经验条件熵,由于真正的熵并不知道,是根据样本计算出来的),公式如下:
在这里插入图片描述

四、条件熵和信息增益的关系

由前三点可以很明显的看出他们之间的联系

信息增益 = 信息熵 - 条件熵

五、对于条件熵的理解

条件熵我们在上面说了一下,下面我们来通俗的理解一下:
条件熵就是:定义为X给定条件下,Y的条件概率分布的熵对X的数学期望

我们用数学的角度来看一下:
设有随机变量(X,Y),其联合概率分布为
在这里插入图片描述
条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性。

随机变量X给定的条件下随机变量Y的条件熵H(Y|X)

对条件熵的公式进行推导:
在这里插入图片描述
注意:
条件熵,不是指定某个数或者某个变量为某个值,它所指的是期望
因为条件熵中X也是一个变量,意思是在一个变量X的条件下(变量X的每个值都会取),另一个变量Y熵对X的期望。

六、举例来看

  1. 信息熵
    在双十一,我要买一件衣服,但是不知道到底怎么样,所以我一直很纠结,在犹豫买不买,我决定买这件衣服的不确定性(熵)为3.3

  2. 条件熵
    我在网上看了看衣服的评价,看看了别人的图片,我决定买这件衣服这件事的不确定性是1.6
    我在线下去实体店试穿衣服后,在决定买不买。那我决定买这件衣服这件事的不确定性是0.8

  3. 信息增益
    上面条件熵给出了两个:
    一个是看了网上的评价,此时的信息增益是Gain1=3.3−1.6=1.7
    另一个是线下试穿了衣服,此时的信息增益Gain2=3.3−0.8=2.5

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值