第5章 决策树

5.1  决策树模型与学习

5.2  特征选择

目的:选取的特征对训练数据有分类作用

特征选择的准则:信息增益或信息增益比

信息增益:输入对训练数据分类不确定性减少的程度,信息增益越大越好

                g(D,A)=H(D)-H(D|A)

信息增益比:

5.3  决策树的生成

1)ID3算法

     求所有特征关于训练数据的信息增益,选最大值作为当前结点

     叶子结点:当前结点将训练数据划分为两个子集,当某个子集只有同一类样本点时则为叶子结点

2)C4.5的生成算法

     与ID3算法的不同是用的信息增益比

5.4  决策树的剪枝

     损失函数

5.5  CART算法

1) CART生成

最小二乘回归树的生成:

      策略:损失函数是平方误差

      算法:启发式(1.遍历(j,s),选损失函数最小的切分点 2.对应输出是均值)

CART的生成:

      策略:基尼指数(选择最小)

      算法:算出特征对于当前数据集的基尼指数,选择最小的基尼指数的特征及其对应的切分点

2)CART剪枝

      策略:损失函数:如基尼指数等

      算法:比较剪枝前后损失函数哪个小就选择哪个剪枝

                或者当损失函数相同时,算出相应当a,再对树进行剪枝

      

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值