决策树分类
决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。
决策树用于对新样本的分类,是通过决策树对新样本属性值的测试,从树的根结点开始,按照样本属性的取值,逐渐沿着决策树向下,直到树的叶结点,该叶结点表示的类别就是新样本的类别。
决策树分类算法,及其原理
决策树常用的算法有:
-
ID3
ID3算法使用信息增益为准则来选择划分属性
根据样本子集属性取值的信息增益值的大小来选择决策属性,并根据该属性的不同取值生成决策树的分支,再对子集进行递归调用该方法,当所有子集的数据都只包含于同一个类别时结束。最后,根据生成的决策树模型,对新的、未知类别的数据对象进行分类。
优点:
ID3算法的优点就是方法简单、计算量小、理论清晰、学习能力较强、比较适用于处理规模较大的学习问题。
缺点:
1.ID3没有考虑连续特征,比如长度,密度都是连续值,无法在ID3运用。
2.ID3采用信息增益大的特征优先建立决策树的节点。在相同条件下,比如一个特征有2个分支,另一个特征为3个分支,取值比较多的特征比取值少的特征信息增益大。其实他们都是完求不确定的变量,但是3个取值的比2个取值的信息增益大
3.ID3算法对于缺失值的情况没有做考虑
4.没有考虑过拟合的问题 -
C4.5
C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进:
1.用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;
2.在树构造过程中进行剪枝;
3.能够完成对连续属性的离散化处理;
4.能够对不完整数据进行处理。
优点: 产生的分类规则易于理解,准确率较高。
缺点: 在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。此外,C4.5只适合于能够驻留于内存的数据集,当训练集大得无法在内存容纳时程序无法运行。