【统计学习算法】决策树(ID3算法)

决策树一类基本的回归于分类问题

一般包括特征选择,决策树的生成,和决策树的剪枝。

决策树的生成对应了模型的局部选择,剪枝对应了模型的全局选择。

使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直到到达叶子节点,将叶子节点存放的类别作为决策结果。
参考文献

一、特征选择

一般就是就是基于信息论的,信息增益和信息增益率算法。其中ID3采用的是信息增益算法,C4.5算法是采用了启发式方法,首先候选划分属性中找出信息增益高于平均水平的属性(这样保证了大部分好的的特征),再从中选择增益率最高的(又保证了不会出现编号特征这种极端的情况)。

基本思路就是,每次进行决策时,希望决策后的集合的纯度最高,也就是新的集合的信息熵最小。

  • 两种计算纯度方法的对比
  1. 信息增益准则其实是对可取值数目较多的属性有所偏好。因为可以获得最大的纯度,可能会分为最多的类。
  2. 信息增益比,相当于为原有的方法添加了损失项,会更趋向于选择少分类的项。(信息增益/特征A的熵)

另外CART算法采用的基尼系数衡量纯度。 G

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值