#数据分析算法篇 ## 决策树(学习课程笔记)

本文介绍了数据分析中的决策树算法,包括构造过程中的节点类型和选择、剪枝的目的与方法,以及过拟合和泛化能力的概念。讨论了ID3算法的优缺点,并引出了C4.5算法如何改进这些问题。
摘要由CSDN通过智能技术生成

数据分析算法篇之决策树

做决策树的时候,会经历两个阶段:构造和剪枝
做决策树的时候,会经历两个阶段:构造和剪枝

构造

构造的过程就是选择什么属性作为节点的过程。
三种节点
1.根节点:就是树的最顶端,最开始的那个节点。在上图中,“天气”就是一个根节点
2.内部节点:就是树中间的那些节点,比如说“温度”、“湿度”、“刮风”
3.叶节点:就是树最底部的节点,也就是决策结果

节点之间存在父子关系。比如根节点会有子节点,子节点会有子子节点,但是到了叶节点就停止了,叶节点不存在子节点。那么在构造过程中,你要解决三个重要的问题:
1.选择哪个属性作为根节点;
2.选择哪些属性作为子节点;
3.什么时候停止并得到目标状态,即叶节点。

剪枝
剪枝就是给决策树瘦身,这一步想实现的目标就是,不需要太多的判断,同样可以得到不错的结果。之所以这么做,是为了防止“过拟合”(Overfitting)现象的发生。
“过拟合”这个概念你一定要理解,它指的就是模型的训练结果“太好了”,以至于在实际应用的过程中,会存在“死板”的情况,导致分类错误。
欠拟合,和过拟合就好比是下面这张图中的第一个和第三个情况一样,训练的结果“太好“,反而在实际应用过程中会导致分类错误。
在这里插入图片描述
造成过拟合的原因之一就是因为训练集中样本量较小。
如果决策树选择的属性过多,构造出来的决策树一定能够“完美”地把训练集中的样本分类,但是这样就会把训练集中一些数据的特点当成所有数据的特点,但这个特点不一定是全部数据的特点,这就使得这个决策树在真实的数据分类中出现错误,也就是模型的“泛化能力”差。
泛化能力指的分类器是通过训练集抽象出来的分类能力,你也可以理解是举一反三的能力。
一般来说,剪枝可以分为“预剪枝”(Pre-Pruning)和“后剪枝”(Post-Pruning)。
预剪枝是在决策树构造时就进行剪枝。方法是在构造的过程中对节点进行评估,如果对某个节点进行划分,在验证集中不能带来准确性的提升,那么对这个节点进行划分就没有意义,这时就会把当前节点作为叶节点,不对其进行划分。
后剪枝就是在生成决策树之后再进行剪枝,通常会从决策树的叶节点开始,逐层向上对每个节点进行评估。
方法是:用这个节点子树的叶子节点来替代该节点,类标记为这个节点子树中最频繁的那个类。

纯度:把决策树的构造过程理解成为寻找纯净划分的过程。数学上,我们可以用纯度来表示,纯度换一种方式来解释就是让目标变量的分歧最小。

信息熵(entropy)的概念,它表示了信息的不确定度。信息熵越大,纯度越低。在这里插入图片描述
经典的 “不纯度”的指标有三种,分别是信息增益(ID3 算法)、信息增益率(C4.5 算法)以及基尼指数(Cart 算法)。

ID3 算法计算的是信息增益,信息增益指的就是划分可以带来纯度的提高,信息熵的下降。
在这里插入图片描述
它的计算公式,是父亲节点的信息熵减去所有子节点的信息熵。在计算的过程中,我们会计算每个子节点的归一化信息熵,即按照每个子节点在父节点中出现的概率,来计算这些子节点的信息熵。所以信息增益的公式可以表示为:公式中 D 是父亲节点,Di 是子节点,Gain(D,a) 中的 a 作为 D 节点的属性选择。

ID3:
优点:算法简单,通俗易懂
缺陷:1. 无法处理缺失值
2. 只能处理离散值,无法处理连续值
3. 用信息增益作为划分规则,存在偏向于选择取值较多的特征。因为特征取值越多,说明划分的
越细,不确定性越低,信息增益则越高
4. 容易出现过拟合

C4.5:
优点:1. 能够处理缺省值
2. 能对连续值做离散处理
3. 使用信息增益比,能够避免偏向于选择取值较多的特征。因为信息增益比=信息增益/属性
熵,属性熵是根据属性的取值来计算的,一相除就会抵消掉
4. 在构造树的过程中,会剪枝,减少过拟合
缺点:构造决策树,需要对数据进行多次扫描和排序,效率低
在这里插入图片描述

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值