5003笔记 Statistic Chapter9-Tree and Ensemble methods

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
R1,R2,R3就是leaf node页节点。internal node内节点,就是判断的条件。
在这里插入图片描述
决策树的评价指标是RSS,对于决策树来说,我们如何找他的预测值呢?对于回归树而言,我们会通过recursive binary splitting和greedy algorithm
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
树其实用的是贪心算法Greedy Algorithm,所以它只是在当前分叉时候,做最好的决策,而不是选择将来更好的结果的切分,不同于动态规划。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
所以回归树的计算量是巨大的。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
Gini index表示k的类别的离散程度。Gini越小越好,节点越纯。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
缺点:1)与我们讨论的其他一些回归和分类方法相比,树的预测精度不高。2)容易过拟合。
在这里插入图片描述
为了防止过拟合,决策树不能通过正则项,所以可以通过ensemble方法。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
我们通过bootstrap产生了很多数据集,然后每个数据集构建一颗决策树。当新的样本数据来进行预测的时候,我们就把新的样本放入所有的树中,最后去一个平均值作为回归树的预测值。如果是分类问题,最后就用voting的方法。
在这里插入图片描述
OOB(out of bag) error estimation 包外误差估计:
2/3用于训练,1/3用于测试。
在这里插入图片描述
随机森林(有时)通过一个小的调整来消除树木的相关性,从而改善了袋装树木。这减少了平均树木时的方差。
在这里插入图片描述
在这里插入图片描述
Boosting的工作方式类似Bagging,只是树是按顺序生长的:每棵树都是使用以前生长的树的信息生长的。
在这里插入图片描述
Boosting的树特征比较少,训练速度快。并且去提升表现不好的f(x)。收缩参数λ进一步减慢了这一过程,允许更多不同形状的树木修正残差。
在这里插入图片描述
每一次新的预测结果要加上之前的预测结果乘一个系数lambada。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
老师说比重怎么来的,不用管
在这里插入图片描述
算法没有使用引导样本(替换),而是对训练集的一小部分进行采样。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
随机森林的学习器一般比较复杂,而boosting学习器很弱,有时只是一个stump树墩。
在这里插入图片描述
随机森林和boosting是最先进的监督学习方法之一。然而,他们的结果可能很难解释。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值