机器学习-决策树

决策树分类

决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。
决策树用于对新样本的分类,是通过决策树对新样本属性值的测试,从树的根结点开始,按照样本属性的取值,逐渐沿着决策树向下,直到树的叶结点,该叶结点表示的类别就是新样本的类别。

决策树分类算法,及其原理

决策树常用的算法有:

  1. ID3
    ID3算法使用信息增益为准则来选择划分属性
    根据样本子集属性取值的信息增益值的大小来选择决策属性,并根据该属性的不同取值生成决策树的分支,再对子集进行递归调用该方法,当所有子集的数据都只包含于同一个类别时结束。最后,根据生成的决策树模型,对新的、未知类别的数据对象进行分类。
    优点:
    ID3算法的优点就是方法简单、计算量小、理论清晰、学习能力较强、比较适用于处理规模较大的学习问题。
    缺点:
    1.ID3没有考虑连续特征,比如长度,密度都是连续值,无法在ID3运用。
    2.ID3采用信息增益大的特征优先建立决策树的节点。在相同条件下,比如一个特征有2个分支,另一个特征为3个分支,取值比较多的特征比取值少的特征信息增益大。其实他们都是完求不确定的变量,但是3个取值的比2个取值的信息增益大
    3.ID3算法对于缺失值的情况没有做考虑
    4.没有考虑过拟合的问题

  2. C4.5
    C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进:
    1.用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;
    2.在树构造过程中进行剪枝;
    3.能够完成对连续属性的离散化处理;
    4.能够对不完整数据进行处理。
    优点: 产生的分类规则易于理解,准确率较高。
    缺点: 在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。此外,C4.5只适合于能够驻留于内存的数据集,当训练集大得无法在内存容纳时程序无法运行。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值