5003笔记 Statistic Chapter9-Tree and Ensemble methods

最新推荐文章于 2024-06-13 19:04:06 发布

大叔爱学习.

最新推荐文章于 2024-06-13 19:04:06 发布

阅读量1k

点赞数

分类专栏： statistic 文章标签：机器学习统计学概率论决策树

本文链接：https://blog.csdn.net/weixin_43716712/article/details/121434456

版权

statistic 专栏收录该内容

12 篇文章 2 订阅

订阅专栏

在这里插入图片描述

R1,R2,R3就是leaf node页节点。internal node内节点，就是判断的条件。

决策树的评价指标是RSS，对于决策树来说，我们如何找他的预测值呢？对于回归树而言，我们会通过recursive binary splitting和greedy algorithm
在这里插入图片描述

树其实用的是贪心算法Greedy Algorithm，所以它只是在当前分叉时候，做最好的决策，而不是选择将来更好的结果的切分，不同于动态规划。

所以回归树的计算量是巨大的。

Gini index表示k的类别的离散程度。Gini越小越好，节点越纯。
在这里插入图片描述

缺点：1）与我们讨论的其他一些回归和分类方法相比，树的预测精度不高。2）容易过拟合。

为了防止过拟合，决策树不能通过正则项，所以可以通过ensemble方法。

我们通过bootstrap产生了很多数据集，然后每个数据集构建一颗决策树。当新的样本数据来进行预测的时候，我们就把新的样本放入所有的树中，最后去一个平均值作为回归树的预测值。如果是分类问题，最后就用voting的方法。
在这里插入图片描述
OOB(out of bag) error estimation 包外误差估计：
2/3用于训练，1/3用于测试。

随机森林（有时）通过一个小的调整来消除树木的相关性，从而改善了袋装树木。这减少了平均树木时的方差。

Boosting的工作方式类似Bagging，只是树是按顺序生长的：每棵树都是使用以前生长的树的信息生长的。
在这里插入图片描述
Boosting的树特征比较少，训练速度快。并且去提升表现不好的f(x)。收缩参数λ进一步减慢了这一过程，允许更多不同形状的树木修正残差。

每一次新的预测结果要加上之前的预测结果乘一个系数lambada。

在这里插入图片描述

老师说比重怎么来的，不用管

算法没有使用引导样本（替换），而是对训练集的一小部分进行采样。

随机森林的学习器一般比较复杂，而boosting学习器很弱，有时只是一个stump树墩。

随机森林和boosting是最先进的监督学习方法之一。然而，他们的结果可能很难解释。

大叔爱学习.

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
5003笔记 Statistic Chapter9-Tree and Ensemble methods

R1,R2,R3就是leaf node页节点。internal node内节点，就是判断的条件。决策树的评价指标是RSS，对于决策树来说，我们如何找他的预测值呢？对于回归树而言，我们会通过recursive binary splitting和greedy algorithm树其实用的是贪心算法Greedy Algorithm，所以它只是在当前分叉时候，做最好的决策，而不是选择将来更好的结果的切分，不同于动态规划。所以回归树的计算量是巨大的。Gini index表示k的...
复制链接

扫一扫