关键字:机器学习 决策树 条件熵 信息增益

熵的定义

在信息论与概率统计中,熵是表示随机变量不确定性的度量。设 X 是一个取有限个值的离散随机变量,其概率分布为

则随机变量 X 的熵定义为

其中对数通常以 2 或者 e 为底,这时熵的单位分布成为比特或者纳特。由定义可知,熵只依赖 X 的分布,与其取值无关,所以也可以将 X 的熵记为 H(p),即

熵越大,随机变量的不确定性就越大。

条件熵

设有随机变量 (X,Y),其联合概率分布为

条件熵 H(Y|X) 表示在已知随机变量 X 的条件下随机变量 Y 的不确定性。随机变量 X 给定的条件下随机变量 Y 的条件熵 H(Y|X),定义为 X 给定条件下 Y 的条件概率分布的熵对 X 的数学期望

这里,

当熵和条件熵中的概率是由数据估计得到时,所对应的熵和条件熵分别为经验熵和经验条件熵。

信息增益

信息增益(information gain)表示得知特征 X 的信息而使得类 Y 的信息的不确定性减少的程度。
特征 A 对训练数据集 D 的信息增益 g(D,A) ,定义为集合 D 的经验熵 H(D)与特征 A 给定条件下 D 的经验条件熵H(D|A)之差,即

信息增益比

特征 A 对数据集 D 的信息增益比

定义为其信息增益 g(D,A) 与数据集 D 关于特征 A 的值的熵

之比,即


其中,n是特征 A 取值的个数。

[例] 对下表所给的训练数据集 D ,根据信息增益准则选择最优特征

在这里插入图片描述

解:首先求数据集 D 的经验熵 H(D)
在这里插入图片描述
然后求各个特征对数据集 D 的经验条件熵 H(D|A)。分别以$A,B,C,E $ 表示年龄、是否有工作、是否有自己的房子,信贷情况4个特征,则
在这里插入图片描述

依次求出其他特征的条件熵



最后求各个特征的信息增益
所以有




故特征C,即有自己的房子作为最优特征。

来自李航 著的《统计学习方法》

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值