C4.5决策树算法原理学习

决策树由于毕业设计的需要,C4.5算法被用来做数据预处理工作,这篇文章主要用于学习决策树相关概念以及C4.5算法的实现。ps:毕设需要的不是构建一个完整的决策树出来,而是得出所有属性的信息增益率,取前几,所以本文主要研究数学概念。决策树的概念决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。从数据产生决策树的机器学习技术叫做决策树学习, 通俗说就是决策树。一个决策树包含三种类型的节点:决策节点:通常用矩形框来表示机会节点:通常用圆圈来表示终结点:通常用三角形来表示决策
摘要由CSDN通过智能技术生成

决策树

由于毕业设计的需要,C4.5算法被用来做数据预处理工作,这篇文章主要用于学习决策树相关概念以及C4.5算法的实现。ps:毕设需要的不是构建一个完整的决策树出来,而是得出所有属性的信息增益率,取前几,所以本文主要研究数学概念。

决策树的概念

决策树是一个预测模型;他代表的是对象属性对象值之间的一种映射关系

从数据产生决策树的机器学习技术叫做决策树学习, 通俗说就是决策树。

一个决策树包含三种类型的节点:

  • 决策节点:通常用矩形框来表示
  • 机会节点:通常用圆圈来表示
  • 终结点:通常用三角形来表示

决策树是一种机器学习的方法。决策树的生成算法有ID3, C4.5和C5.0等。决策树是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果。

决策树是一种十分常用的分类方法,需要监管学习(有教师的Supervised Learning),监管学习就是给出一堆样本,每个样本都有一组属性和一个分类结果,也就是分类结果已知,那么通过学习这些样本得到一个决策树,这个决策树能够对新的数据给出正确的分类。

信息增益率

  1. 计算类别信息熵

类别信息熵表示的是所有样本中各种类别出现的不确定性之和。根据熵的概念,熵越大,不确定性就越大,把事情搞清楚所需要的信息量就越多。

<
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值