决策树总结

    决策树是一种常用的分类算法,它的建模过程类似一棵树的生长过程,即从根部开始,到树干,到分支,再到细枝末节的分叉,最终生长成一片片的树叶;其中每个内(非树叶节点)表示在一个属性上的测试,每个分枝代表该测试的一个输出,而每个树叶节点(或终端节点)存放一个类标号。

    决策树的学习通常包含三个步骤:特征的选择,决策树的生成和决策树的修剪。

    常用的决策树算法有:ID3、C4.5、CART、CHAID等,各算法的主要区别主要是对属性选择度量(分裂准则选择)的不同:

ID3通过信息增益来进行节点的分支选择(选择具有最高信息增益的属性作为节点的分裂属性);

C4.5通过使用信息增益率来进行节点的分枝选择(选择具有最大增益率的属性作为分类属性);

CART通过使用基尼指数(GINI指标作为杂质函数,它主要是度量数据划分或数据训练集D的不纯度为主,GINI值越小,表明样本的纯净度越高,即该样本只属于同一个类的概率越高);

CHAID通过卡方值最显著。


    决策树的修剪方式包括:先剪枝和后剪枝2种方式。

先剪枝法通过提前停止分支的生长过程,即通过在当前结点上就判断是否需要继续划分该结点所含训练样本集来实现;为了做到这一点,就需要更为限制性的约束条件,如当观察到不纯性度量的增益低于某个确定的阀值时就停止扩展分支的生长。

优点:避免产生过分拟合训练数据的过于复杂的子树

缺点:我们很难为提前终止选取正确的阀值,阀值太高将导致拟合不足的模型,而阀值太低则不能充分地解决过分拟合问题。此外,即便是使用已有的属性测试条件得不到显著的增益,接下来的划分也可能产生较好的子树。

剪枝法从一个“充分生长”树中,按照自底向上的方式修剪掉多余的分支新的叶子结点替换子树,该叶子结点的类标号由子树记录中的多数类确定;计算修剪前后的预期分类错误率,如果修剪导致预期分类错误率变大,则放弃修剪,保留相应结点的各个分支,否则就将相应结点分支修剪删去

优点:与事先剪枝相比,事后剪枝倾向于产生更好的结果,因为与事先剪枝不同,事后剪枝是根据完全生长的树做出的剪枝决策,先剪枝则可能过早终止决策树的生长。


决策树的有如下优缺点:

优点

擅长处理非数值性:决策树很擅长处理非数值型数据,这与神经网络只能处理数值型数据比起来,就免去了很多数据预处理工作

结果好理解:可以生成可以理解的规则,从模型中得到的规则能得到非常直观的解释,决策推理过程可以表示成   IF…THEN的形式;

计算量小:计算量相对来说不是很大;

选择重要变量能力强:决策树可以清晰的显示哪些字段比较重要自动忽略对目标变量没有贡献的属性变量。

缺点

不擅长连续性字段:连续性的字段比较难预测;

不擅长处理时间序列:有时间顺序的数据,需要很多预处理的工作;

不擅长处理类别多的字段:类别太多时,错误可能就会增加的比较快;

不擅长多字段分类:一般的算法分类的时候,只根据一个字段来分类。








评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值