声明:本文虽有部分自己理解成分,但是大部分摘自以下链接。
决策树(decision tree)(三)——连续值处理
决策树参数讲解+实例
数据挖掘十大算法
C4.5算法的改进:
用信息增益率来选择属性。
在树构造过程中进行剪枝,在构造决策树的时候,那些挂着几个元素的节点,不考虑最好,不然容易导致overfitting。
对非离散数据也能处理。
能够对不完整数据进行处理。
修剪枝叶
原因:避免产生过拟合
- 前剪枝叶:在构造决策树的同时进行剪枝。在决策树构建中,如果无法进一步降低信息墒的情况下就会停止创建分支。为了避免过拟合,可以设定一个阀值,信息墒见效的数量小于这个阀值,即是还可以继续降低熵也停止继续创建分支。这种方法就是前剪枝。构造树时,即限定增加该节点时增加的熵是否会低于阈值来判断是否增加这个节点
- 后剪枝:后剪枝是指决策树构造完成后进行剪枝。剪枝的过程是对拥有同样符节点的一组节点进行检查,判断如果将其合并,信息墒的增加量是否小于某一阀值。如果小于阀值即可合并分支。成功构建树后,通