机器学习之决策树学习笔记分享

决策树思维导图

在这里插入图片描述

特征选择

特征选择是为了选取具有分类能力的特征,选取准则为信息增益或信息增益比

信息增益

def:特征A对训练数据D的信息增益为g(D,A),定义为集合D的经验熵H(D)和特征A给定条件下D的经验条件熵H(D|A)之差,即
g ( D , A ) = H ( D ) − H ( D ∣ A ) g(D,A)=H(D)-H(D|A) g(D,A)=H(D)H(DA)
其中熵的定义为:
H ( P ) = − ∑ i = 1 n p i l o g 2 p i ( p i = p ( X = x i ) , i = 1 , 2 , 3... ) H(P)=-\sum_{i=1}^{n}p_ilog_2p_i (pi=p(X=x_i),i=1,2,3...) H(P)=i=1npilog2pipi=p(X=xi),i=1,2,3...)
熵越大随机变量的不确定性就越大

条件熵的定义为:
H ( Y ∣ X ) = ∑ i = 1 n p i H ( Y ∣ X = x i ) ( p i = p ( X = x i ) , i = 1 , 2 , 3... ) H(Y|X)=\sum_{i=1}^{n}p_iH(Y|X=x_i) (pi=p(X=x_i),i=1,2,3...) H(YX)=i=1npiH(YX=xi)pi=p(X=xi),i=1,2,3...)
当熵和条件熵为数据统计(特别时极大似然估计)得到时,所对应的熵和条件熵称为经验熵和经验条件熵

介绍完熵和条件熵后,我们继续回到信息增益上

一般地,熵与条件熵之差称为互信息,所以信息增益等价于训练数据集中类与特征的互信息

经验熵H(D)表示对数据集D进行分类的不确定性,经验条件熵表示在给定特征A条件下对数据集D进行分类的不确定性,它们的差,即信息增益表示由于特征A而使得对数据集D的分类的不确定性减少的程度

根据信息增益选取特征的方法为:对训练数据集D,计算每个特征的信息增益,选取信息增益最大的那个特征

信息增益比

以信息增益作为划分训练数据集的准则,存在偏向于选择取值较多的特征的问题。利用信息增益比即可矫正该问题

def:信息增益比的定义为信息增益与训练数据集D关于特征A的值的熵之比,即:
g R ( D , A ) = g ( D , A ) H A ( D ) g_R(D,A)=\frac{g(D,A)}{H_A(D)} gR(D,A)=HA

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值