【机器学习】CART分类树、回归树算法

最新推荐文章于 2024-07-02 14:27:14 发布

马苏比拉米G

最新推荐文章于 2024-07-02 14:27:14 发布

阅读量1.6k

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_44388679/article/details/99894919

版权

一、定义

CART（Classification and Regression Tree）即分类回归树算法。其决策树的生成就是递归的构建二叉决策树的过程。每次划分都把当前样本集划分为两个子样本集。对回归树用平方误差最小化准则，对分类树用基尼指数最小化准则，进行特征选择，生成二叉树。

二、分裂次数

假设某属性存在m个可取值，那么该属性作为分支属性时，生成两个分支的分裂方法共有 $\displaystyle 2^{m-1} -1$ 种。如果有n个属性，则分裂方法有 $\displaystyle \left( 2^{m-1} -1\right)^{n}$ 种。

三、CART分类树与回归树

1、CART分类树
1.1、分类树原理
（1）CART算法在分支时使用Gini系数作为树的生成方式。设 $S$ 为大小是n的样本集，其分类属性有m个不同的取值，用来定义m个不同分类 $\displaystyle C_{i}(i=1,2,...m)$ ,则其Gini指数的计算公式为：
$\displaystyle Gini( S) \ =\ 1-\sum ^{m}_{i=1}\left(\frac{|C_{i} |}{S}\right)$
$\displaystyle Gini( p) \ =\sum ^{k}_{k=1} p_{k}( 1-p_{k}) =1-\sum ^{k}_{k=1} p^{2}_{k}$
其中， $S$ 为样本总数量， $\displaystyle C_{i}$