统计学习方法——决策树（二）

最新推荐文章于 2024-08-10 00:35:27 发布

你的名字5686

最新推荐文章于 2024-08-10 00:35:27 发布

阅读量197

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/wk19951125/article/details/88607857

版权

机器学习专栏收录该内容

29 篇文章 1 订阅

订阅专栏

本文深入探讨了CART算法在决策树中的应用，包括CART生成过程，采用基尼指数最小化准则选择特征和切分点，以及CART剪枝的后剪枝策略，通过交叉验证法选择最优子树。

摘要由CSDN通过智能技术生成

决策树

决策树
- CART算法

决策树

前面介绍了决策树的一些知识，这里我们再来看一个CART模型。

CART算法

CART算法同样由两部分组成：决策树生成（生成的决策树要尽可能大），决策树剪枝（后剪枝）。其使用的特征选择标准是：基尼指数最小化准则。

CART生成

最小二乘回归树生成算法
- 输入：训练集 $D$
- 输出：回归树 $f\left( x \right)$
- 过程
  - 选择最优切分变量 $j$ 和切分点 $s$ ，求解
    $\mathop {\min }\limits_{j,s} \left[ {\mathop {\min }\limits_{{c_1}} \sum\limits_{{x_i} \in {R_1}\left( {j,s} \right)} {{{\left( {{y_i} - {c_1}} \right)}^2}} + \mathop {\min }\limits_{{c_2}} \sum\limits_{{x_i} \in {R_2}\left( {j,s} \right)} {{{\left( {{y_i} - {c_2}} \right)}^2}} } \right]$
    遍历变量 $j$ ，对固定的切分变量 $j$ 扫描切分点 $s$ ，找到最小的 $\left(j,s\right)$
  - 用选定的 $\left(j,s\right)$ 划分区域并决定相应的输出值：
    ${R_1}\left( {j,s} \right) = \left\{ {x\left| {{x^{\left( j \right)}} \le s} \right.} \right\},\quad {R_2}\left( {j,s} \right) = \left\{ {x\left| {{x^{\left( j \right)}} > s} \right.} \right\}$
    ${{\hat c}_m} = \frac{1}{{{N_m}}}\sum\limits_{{x_i} \in {R_m}\left( {j,s} \right)} {{y_i}} \quad x \in {R_m}\quad m = 1,2$
  - 继续对两个子区域进行划分，知道满足条件
  - 将输入空间划分为 $M$ 个区域 $R_1,R_2,...,R_M$ ，生成决策树：
    $f\left( x \right) = \sum\limits_{m = 1}^M {{{\hat c}_m}} I\left( {x \in {R_m}} \right)$
CART生成
- 输入：训练集 $D$ ，停止计算的条件
- 输出：CART决策树
- 流程
  - 设节点训练集为 $D$ ，计算现有特征的基尼指数。（对每个属性的每个取值按照“是”“否”分割成两部分，计算基尼指数）
  - 在所有可能的特征 $A$ 及它们可能的切分点 $a$ 中，选择基尼指数最小的特征以及分割点生成两个子节点。
  - 对两个子节点递归调用上面的步骤直到满足停止条件。
  - 生成CART决策树。

CART剪枝（后剪枝）

整个过程包括两个部分，通过剪枝生成一个子树序列，再通过交叉验证法在独立的验证数据集上选择最优子树。

输入：生成的决策树 $T_0$
输出：最优决策树 $T_{\alpha}$
过程：
- 设 $k = 0$ ， $T=T_0$
- 设 $\alpha = + \infty$
- 自下而上地对各个结点 $t$ 计算 $C\left( {{T_t}} \right)$ 、 $\left| {{T_t}} \right|$ 以及 $g\left( t \right) = \frac{{C\left( t \right) - C\left( {{T_t}} \right)}}{{\left| {{T_t}} \right| - 1}}$ 和 $\alpha = \min \left( {\alpha ,g\left( t \right)} \right)$ 。
  其中 $T_t$ 为以 $t$ 为根节点的子树， $C\left( {{T_t}} \right)$ 是对训练集的预测误差， ${\left| {{T_t}} \right|}$ 是 $T_t$ 的叶节点个数。
- 自上向下访问内部节点 $t$ ，如果 $g\left( t \right) = \alpha$ ，进行剪枝，并对叶节点 $t$ 以表决法划分，得到 $T$
- 设 $k = k + 1$ ， $\alpha_k=\alpha$ ， $T_k=T$
- 如果 $T$ 不是由根节点单独构成的树，则继续自上而下进行剪枝
- 采用交叉验证法在子树序列 $T_0,T_1,...,T_n$ 中选出最优子树 $T_{\alpha}$