目录
一、决策树CART
CART分类回归树是一种典型的二叉决策树,可以处理分类或者回归问题。如果待预测结果是离散型数据,则CART生成分类决策树;如果待预测结果是连续型数据,则CART生成回归决策树。
1.1分类决策树
选择GINI系数作为分裂节点的依据。
对于给定的样本集合D,其基尼指数为
Gini系数表示该数据集中样本属于某一类的不确定程度,Gini系数越小,样本类别的不确定性越小。如样本集合D中只有一个类别,gini系数为0,样本类别不确定性为0。
对含有N个样本的样本集S,根据属性A的第i个属性值,将样本集分为S1和S2,Gini系数为:
对于属性A,计算所有属性值将数据集分为两部分后的Gini系数,选取其中的最小值,作为属性A得到的最优二分方案:
对于数据集中的所有属性,计算最优二分方案,选取最小值,作为样本S的最优二分方案: