统计学习导论（八）基于树的方法——学习笔记

最新推荐文章于 2022-09-20 13:05:50 发布

鸭鸭鸭鸭鸭鸭

最新推荐文章于 2022-09-20 13:05:50 发布

阅读量1.3k

点赞数 2

分类专栏：统计学习导论文章标签：决策树机器学习人工智能

本文链接：https://blog.csdn.net/weixin_52547939/article/details/120999986

版权

本文介绍了基于树的机器学习方法，包括决策树的基本原理，如回归树和分类树的构建过程，以及与线性模型的比较。讨论了装袋法（bagging）、随机森林和提升法（boosting）等集成学习方法在提升预测准确性方面的作用。此外，还阐述了如何通过剪枝避免过拟合，并探讨了决策树与线性模型在预测复杂非线性关系时的适用性。

摘要由CSDN通过智能技术生成

基于树的回归和分类方法，主要根据分层和分割的方式将预测变量空间划分为一系列简单区域。对某个给定带预测的观测值，用它所属区域中训练集的平均值或众数对其进行预测，由于划分预测变量空间的分裂规则可以被概括为一棵树，所以该类方法被称为决策树方法。本章包含装袋法（bagging）、随机森林（random forest）、提升法（boosting），先建立多棵树，再综合，最后根据表决产生预测。

将大量的树集成后会极大提升预测准确性，同时也会损失一些解释性。

1. 决策树基本原理

1.1 回归树（Regression tree）

在这里插入图片描述
如图所示，决策树通常是从上到下绘制的，树的终端结点（terminal node）——树叶（leaf）位于树的底部，沿树将预测变量空间分开的点称为内部结点（internal node）。这里Years<4.5 和Hits<117.5 标示出了两个内部结点。树内部各个结点的连接部分称为分支（branch）。

通过特征空间分层预测
建立回归树大致分为两步：
（1）将预测变量空间（ $X_{1}, X_{2}, \dots, X_{p}$ 的可能取值构成的集合）分割成J个互不重叠的区域 $R_{1}, R_{2}, \dots, R_{J}$ 。
（2）对落入区域 $R_{j}$ 的每个观测值作同样的预测，预测值等于 $R_{j}$ 上训练集的响应值的简单算术平均。

理论上，区域的形状是任意的，出于模型简化和增强可解释性，这里将预测变量空间划分成高维矩形——盒子（box）。划分区域的目标是找到使模型的残差平方和RSS最小的矩形区域 $R_{1}, R_{2}, \dots, R_{J}$ 。
$\sum_{j=1}^{J} \sum_{i \in R_{j}}\left(y_{i}-\hat{y}_{\Omega_{j}}\right)^{2}$ ， $KaTeX parse error: Expected 'EOF', got '\right' at position 21: …y}_{\Omega_{j}}\̲r̲i̲g̲h̲t̲)^{2}$ 是第 $j$ 个矩形区域中训练集的平均响应值。
采用自上而下（top-down）、贪婪（greedy）方法：递归二叉分裂（recursive binary splitting）。“自上而下”指从树顶端开始依次分裂预测变量空间，每个分裂点都产生两个新的分支。“贪婪”指在建立树的每一步中，最优分裂确定仅限于某一步进程，而不是针对全局去选择那些能够在未来进程中构建出更好的树的分裂点。

在执行递归二叉分裂时，先选择预测变量 $X_{j}$ 和分割点 $s$ ，将预测变量空间分为两个区域 ${X|X_{j}<s}$ 和 ${X|X_{j}≥s}$

最低0.47元/天解锁文章

鸭鸭鸭鸭鸭鸭

关注

2
点赞
踩
14

收藏

觉得还不错? 一键收藏
打赏
0
评论
统计学习导论（八）基于树的方法——学习笔记

基于树的回归和分类方法，主要根据分层和分割的方式将预测变量空间划分为一系列简单区域。对某个给定带预测的观测值，用它所属区域中训练集的平均值或众数对其进行预测，由于划分预测变量空间的分裂规则可以被概括为一棵树，所以该类方法被称为决策树方法。本章包含装袋法（bagging）、随机森林（random forest）、提升法（boosting），先建立多棵树，再综合，最后根据表决产生预测。将大量的树集成后会极大提升预测准确性，同时也会损失一些解释性。1. 决策树基本原理1.1 回归树（Regression t
复制链接

扫一扫