CART
决策树有两种类型:分类树和回归树,其中分类树输出是样本的类别,回归树输出的是连续的实数。CART(Classification And Regression Tree)既可以做分类也可以做回归。
CART是在给定输入随机变量X的条件下输出随机变量Y的条件概率分布学习方法。CART书假设决策树是二叉树,内部节点的取值为‘是’和‘否’,这样的决策树等价于递归的二分每一个特征,将输出空间即特征空间分为有限个单元,并在这些单元确定预测的概率分布,也就是在输入给定的条件下输出的条件概率分布。
CART 树与ID3 决策树和 C4.5 决策树的重要区别:
-
CART 树是二叉树,而后两者是N 叉树
由于是二叉树,因此 CART 树的拆分不依赖于特征的取值数量。因此CART 树也就不像ID3 那样倾向于取值数量较多的特征。 -
CART 树的特征可以是离散的,也可以是连续的
而后两者的特征是离散的。如果是连续的特征,则需要执行分桶来进行离散化
CART算法分两步:
- 决策树生成:用训练数据生成尽可能大的决策树。
- 决策树剪枝:用验证数据基于损失函数最小化的标准对生成的决策树剪枝。
CART 回归树(主要参考《统计学习方法》)