决策树

统计学习方法 李航 第五章


决策树学习通常包括3个步骤:特征选取、决策树生成和决策树的修剪。


特征选取

(1)信息增益:熵与条件熵的差值

熵:表示随机变量的不确定性。
条件熵:在一个条件下,随机变量的不确定性。
信息增益:在一个条件下,信息不确定性减少的程度!

(2)信息增益比:条件熵和熵的比值


决策树的生成

生成算法:ID3、C4.5(对已知数据分类准确,对未知数据预测却不那么明确,所以要剪枝)

(1)ID3:在决策树的各个节点上应用信息增益准则选择特征,递归的构建决策树,当节点包含的数据记录都属于同一个类别时就可以终止分裂了。

只有树的生成,生成的树容易过拟合

(2)C4.5:在决策树的各个节点上应用信息增益比准则选择特征,递归的构建决策树,当节点包含的数据记录都属于同一个类别时就可以终止分裂了。

只有树的生成,生成的树容易过拟合


决策树的剪枝

通过极小化决策树整体的损失函数或代价函数来实现

决策树是充分考虑了所有的数据点而生成的复杂树,有可能出现过拟合的情况,决策树越复杂,过拟合的程度会越高。
考虑极端的情况,如果我们令所有的叶子节点都只含有一个数据点,那么我们能够保证所有的训练数据都能准确分类,但是很有可能得到高的预测误差,原因是将训练数据中所有的噪声数据都”准确划分”了,强化了噪声数据的作用。
剪枝修剪分裂前后分类误差相差不大的子树,能够降低决策树的复杂度,降低过拟合出现的概率。

两种方案:前剪枝和后剪枝

 

CART算法

CART(分类与回归树)是决策树学习方法。给定岁间变量X条件下输出随机变量Y的田间概率分布的学习方法。

推荐一篇相关的文章:http://blog.csdn.net/tianguokaka/article/details/9018933#t0

http://blog.csdn.net/tianguokaka/article/details/9018933?locationNum=2&fps=1


  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值