机器学习第四章

决策树学习的目的是为了产生一颗泛化能力强,即处理未见示例能力强的决策树
决策树学习基本算法

4.2划分选择

决策树学习的关键是如何选择最优化分属性。随着划分过程不断进行,我们希望决策树的分支节点所包含的样本尽可能属于同一类别,即节点的纯度越来越高

4.2.1信息增益

信息熵:度量样本集合纯度最常用的一种指标
在这里插入图片描述

Ent(D)越小,D的纯度越高

信息增益:在已知属性(特征)a的取值后y的不确定性减少的量,也即纯度的提升
在这里插入图片描述
不按取值划分的纯度-按取值划分的纯度 ,信息增益越大,则意味着使用属性a来进行划分所获得的“纯度提升”越大
著名的 ID3 决策树学习算法 [Quinlan, 1986] 就是以信息增益为准则来选择划分属性.

信息增益准则对可取值数目较多的属性有所偏好,为了减少这种不利影响。
著名的 C4.5 决策树算法 [Quinlan, 1993] 不直接使 用信息增益,而是使用"增益率" (gain ratio) 来选择最优划分属性.
在这里插入图片描述
其中
在这里插入图片描述称为属性a的“固有值”。属性a的可能取值数目越多(即V越大),则IV(a)的值通常会越大。
但是,增益率准则,对可取值数目较少的属性有所偏好,因此,C4.5 算法并不是直接选择增益率最大的候选划分属性,而是使用了一个启发式[Quinlan, 1993]: 先从候选划分属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的.

4.2.3 基尼指数

基尼值:从样本集合D中随机抽取两个样本,其类别标记不一致的概率。基尼值越小,碰到异类的概率就i越小,纯度就越高。
数据集D的纯度可用基尼值来度量:
在这里插入图片描述
属性a的基尼指数定义为
在这里插入图片描述
CARR决策树,使用基尼指数来选择划分属性,选择基尼指数最小的属性作为最优划分属性。
在这里插入图片描述

但是具体的划分点还没有确定,CART决策树的实际构造算法如下:
在这里插入图片描述

剪枝处理

决策树剪枝的基本策略有“预剪枝”和“后剪枝
剪枝是决策树学习算法对付”过拟合“的主要手段
预剪枝:在决策树生成过程中,对每个结点在划分前先进行估计,若当前结点的划分不能带来决策树泛化性能提升,则停止划分并将当前节点标记为叶结点。
后剪枝:先从训练集生成一棵完整的决策树,然后自底向上地对非叶结点进行考察,若将该结点对应的子树替换为叶结点能带来决策树泛化性能提升,则将该子树替换为叶节点。
预剪枝和后剪枝对比:
预剪枝降低了过拟合的风险,还显著减少了决策树的训练时间开销和测试时间开销,但是有些分支当前划分虽不能提升泛化性能、甚至可能倒是泛化性能暂时下降,但在其基础上进行的后续划分却有可能导致性能显著提高;预剪枝基于”贪心“本质禁止这些分支展开,给预剪枝决策树带来了欠拟合的风险。
后剪枝决策树通常比预剪枝决策树保留了更多的分支. 一般情形下、后剪枝决策树的欠拟合风险很小,泛化性能往往优于预剪枝决策树.但后剪枝过程是在生成完全决策树之后进行的7并且要自底向上地对树中的所有非叶结点进行逐一考察,因此其训练时间开销比未剪枝决策树和预剪枝决策树都要大得多.
后剪枝在验证集精度剪枝后保持不变的情况下,根据奥卡姆剃刀准则,剪枝后的模型更好。因此,实际的决策树在此种情形下通常要进行剪枝。

4.4 连续与缺失值

4.4.1 连续值处理

使用连续属性离散化技术
最简单的策略是使用二分法对连续进行处理,正是CART决策树算法中采用的机制
大体思路就是,对连续属性a,考察包含n-1个元素的候选划分点集合,选取信息增益最大的作为最优化分点。

4.4.2 缺失值处理

需要解决两个问题:
(1)如何在属性值缺失的情况下进行划分属性选择?
(2)给定划分属性,若样本在该属性上的值缺失,如何对样本进行划分?
具体看习惯书p87

4.5 多变量决策树

若我们把每个属性视为坐标空间中的一个坐标轴,则d个属性描述的样本就对应了d维空间中的一个数据点,对样本分类则意味着在这个坐标空间中寻找不同类样本之间的分类边界,决策树所形成的分类边界有一个明显的特点:轴平行,即它的分类边界由若干个坐标轴平行的分段组成。
在这里插入图片描述
分类边界每一段都是与坐标轴平行的,这样分类边界有较好的可解释性,因为每一段划分都直接对应了某个属性取值。但在学习任务的真实分类边界比较复杂时,必须使用很多段划分才能获得较好的近似。
如下图所示,此时的决策树比较复杂,由于要进行大量的属性测试,预测时间开销会很大,基于此如果能使用斜的划分边界,决策树模型将大为简化。
在这里插入图片描述
而,“多变量决策树”就是能实现这样的“斜划分”甚至更复杂划分的决策树。

与传统的"单 变量决策树" (univariate decision tree) 不同,在多变量决策树的学习过程中, 不是为每个非叶结点寻找一个最优划分属性,而是试图建立一个合适的线性分类器。
例如,对西瓜数据3.0α我们可学得图 4.13 这样的多变量决策树,其分类边界如图4.14 所示。
在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值