吃瓜笔记(第四章 决策树)

一、决策树

数学角度:树的分叉。即在面对选择问题时的处理机制。

一棵决策树包含一个根节点、若干个内部结点和若干个叶节点;

叶节点对应于决策结果,其他结点对应于一个属性测试。

决策树学习的目的是:产生一棵泛化能力强的决策树,流程遵循“分而治之”的策略。

决策树的生成是对训练集中的样本进行划分,划分的属性应是最优划分属性。

PS:一般情况下,根节点包含所有样本数据,越往下划分样本越少,纯度越高。

二、划分选择

1、如果结点包含的样本属于同一类别,就无须再划分。

2、当前属性集为空或者所有样本在所有属性上取值相同,无法划分。

3、当前节点包含的样本集合为空,不能划分。

三、信息熵,信息增益,增益率

信息熵:

D为当前样本集合,p_{k}为第k类样本所占的比例。

信息熵越小,D的纯度越高。

信息增益:

样本数越多的分支节点影响越大。

信息增益越大,意味着使用属性a来进行划分所获得的“纯度提升”越大。因此用信息增益来进行决策树的划分属性选择。

由于信息增益准则对于可取值数目较多的属性有偏好,为了减少这种不利影响,引出增益率

增益率:

增益率准则对可取值数目较少的属性有所偏好

四、基尼指数

CART决策树使用“基尼指数”来选择划分属性。

基尼指数:

反映了从数据集D中随机抽样两个样本,其类别标记不一致的概率。因此,Gini(D)越小,数据集D的纯度越高。

五、剪枝处理

由于决策树在划分节点的过程中不断产生分支,分支过多会产生过拟合,所以需要减去分支。

分为两种,一是预剪枝,二是后剪枝。

预剪枝是指在决策树生成过程中,对每个结点在划分前进行评估,再决定需不需要划分。

后剪枝是指先形成一个完全的决策树自底向上的分析判断。判断能否提升泛化能力,再决定是否变成叶节点。

六、连续与缺失值

连续值处理,用二分法对连续属性进行离散化处理。

缺失值的处理:需要解决两个问题,在属性值缺失的情况下怎么进行划分属性选择?给定了划分属性,若样本在该属性上的值缺失,如何对样本划分?

七、多变量决策树

可以实现斜划分,更加复杂划分的决策树。

  • 15
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值