(统计学习方法|李航)第五章决策树——四五节:决策树的剪枝,CART算法

目录

一,决策数的剪枝

二,CART算法

1.CART生成

(1)回归树的生成

(2)分类树的生成

         2.CART剪枝

(1)剪枝,形成一个子树序列

(2)在剪枝得到的子树序列T0,T1-----,Tn中通过交叉验证选取最优子树Ta


一,决策数的剪枝

 

好的决策树不高不宽

 

 

柳建男的”后剪枝“挥手创作

 

 1.预剪枝

如果划分之前的泛化能力更强,就作为叶结点,就停止生长

 

我们可以通过ID3算法来生成一颗决策树模型:

 

 

深度就是4.

 

 

 如果将阈值设定为0.4

 以为数据集里面的坏瓜是多于好瓜的

所以我们可以得到单节点树坏瓜

这就是第二种方法,通过控制阈值控制深度进行预剪枝

 

 假设信息增益最大的特征为脐部

以之为根节点

向下生长

 将训练集的决策树拿给测试集比较

 误差率为2/7,

当决策树为单节点时,如果将结果选定为好瓜,误差率为4/7

所以支持接着划分这个决定

第二层

将色泽特征变为内部节点

  •  画出的决策树域测试集比较
  • 此时的误差率为3/7
  • 我们记得两层的决策树误差率为2/7
  • 那么泛化性能变差了

我们如果选择根蒂作为下一层特征

那么

误差率为2/7,与两层时相同

出于奥卡姆剃刀原理,模型越简单越好,不向它延伸。

 那么基于测试集的误差率剪枝所得到的决策树就是这样了。

 2.后剪枝(自下而上的一个过程)

(1)降低错误剪枝(REP)

 与误差率的唯一区别就是

自下而上

 原本的完整的决策树:

此刻决策树的深度为4,那么深度能够变为3吗?

我们用基于训练集生成的决策树进行判别:

 用预测计算出误差率,我们发现都错误了,误差率为1

 

 那么我们就可以剪枝为3了。

我们回到训练集,我们发现

我们将叶节点变为好瓜

错误的

 

(2)PEP

(3)MEP

(4)EBP

(5)CCP

二,CART算法

1.CART生成

(1)回归树的生成

(2)分类树的生成

2.CART剪枝

(1)剪枝,形成一个子树序列

(2)在剪枝得到的子树序列T0,T1-----,Tn中通过交叉验证选取最优子树Ta

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值