5.1 决策树模型与学习
5.2 特征选择
目的:选取的特征对训练数据有分类作用
特征选择的准则:信息增益或信息增益比
信息增益:输入对训练数据分类不确定性减少的程度,信息增益越大越好
g(D,A)=H(D)-H(D|A)
信息增益比:
5.3 决策树的生成
1)ID3算法
求所有特征关于训练数据的信息增益,选最大值作为当前结点
叶子结点:当前结点将训练数据划分为两个子集,当某个子集只有同一类样本点时则为叶子结点
2)C4.5的生成算法
与ID3算法的不同是用的信息增益比
5.4 决策树的剪枝
损失函数
5.5 CART算法
1) CART生成
最小二乘回归树的生成:
策略:损失函数是平方误差
算法:启发式(1.遍历(j,s),选损失函数最小的切分点 2.对应输出是均值)
CART的生成:
策略:基尼指数(选择最小)
算法:算出特征对于当前数据集的基尼指数,选择最小的基尼指数的特征及其对应的切分点
2)CART剪枝
策略:损失函数:如基尼指数等
算法:比较剪枝前后损失函数哪个小就选择哪个剪枝
或者当损失函数相同时,算出相应当a,再对树进行剪枝