学习决策树笔记

构造决策树之前需要决定使用哪个特征进行划分数据,为了划分出更好的结果,需要找到决定性的特征。

而特征的好坏是根据一些准则来进行衡量的,比如信息增益,信息增益率,基尼指数等等。

代名词及公式的理解

  • 信息      l(x_{i})=-log_{2}p(x_{i})

 

  • 信息熵(信息的期望值)    H=-\sum _{i=1}^{n}p(x_{i})log_{2}p(x_{i})    (熵越高,混合的数据越多------熵越小纯度越高)

 

  • 信息增益    Gain(D,a)=Ent(D)-\sum _{v=1}^{V}(\left | D^{v} \right |/\left | D \right |)Ent(D^{v})  (信息增益越大越好,信息增益偏好取值数目多的属性)

 

  • 信息增益率    Gain_ratio(D,a)=Gain(D,a)/IV(a)     (a是属性,IV(a)成为属性a的固有值,对取值数目较少的属性有所偏好)              IV(a)=-\sum _{v=1}^{V}\frac{\left | D^{v} \right |}{\left | D \right |}log_{2}\frac{\left | D^{v} \right |}{\left | D \right |}     (属性a的取值越多,即V越大,则IV(a)的值通常会越大)

 

  • 基尼值    Gini(D)=\sum _{k=1}^{\left | y \right |}\sum _{k^{'}\neq k}p_{k}p_{k^{'}}=1-\sum _{k=1}^{\left | y \right |}p_{k}^{2}.   (反映了从数据集D中随机抽取两个样本,其类别标记不一致的概率,基尼值越小,数据集D的纯度越高)

 

  • 基尼指数     Gini\_index(D,a)=\sum _{v=1}^{V}\frac{\left | D^{v} \right |}{\left | D \right |}Gini(D^{v})    (选择基尼指数最小得属性作为最优划分属性)

 

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值