BI | 决策树知识点整理

BI-决策树

  1. 基本概念:决策树是一种典型的分类方法,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策树对新数据进行分析。
  2. 基本组成:①倒立的树形结构②顶层节点为根节点,是决策树的开始③每个内部节点表示对一个属性的测试,每个分支都代表一个测试输出④每个叶子节点代表一个类别
  3. 生成过程:①树的建立  ②树的剪枝(消除训练数据中的噪声或孤立点对整棵树的影响)
  4. 决策树生成算法的特点:①基本的决策树构造是一个贪心算法,采用自上而下、分而治之的递归方式来构造 ②决策树上的各个分支是在对数据不断分组的过程中逐渐生长出来的 ③不能处理连续取值的属性,对于有连续取值的属性需要先进行离散化
  5. 常见算法 CLS ID3 C4.5 CART

    5.1CLS:①未规定选择测试属性的标准和依据

                     ②采用不同的测试属性及其先后顺序将会生成不同的决策树

    5.2 ID3:①1986年,由Qulian提出了ID3算法

                  ②主要针对CLS算法中没解决的属性选择问题而提出

                  ③选择具有最大信息增益的属性作为当前划分节点(利用信息论中信息熵的概念来作为启发函数)

 

信息源的不确定性越大,熵就越大

    5.2.1信息增益:Gain(S,A)=Entropy(S)-Entropy(S,A)

                                 Entropy(S):为初始的不确定性

                                 Entropy(S,A):是得到属性A的信息后决策S的不确定性

                                 Gain(S,A):是属性A对决策S的信息增益,该值越大说明属性A对于降低决策S的不确定性的作用就越大

    5.2.2算法缺点:

①偏向分割属性中取值多的一个(取值越多 则该属性的信息增益偏大

②只能处理离散属性(连续取值属性需要离散化)        

③无法对未分割属性进行处理              

④ID3不包括剪枝,容易受到噪声或波动的影响

   5.3 C4.5:①引入增益比例(解决偏向分割属性中取值较多的一个属性)

   5.3.1 算法缺点:

①当H(Y)中Pi取值约为1是 H(Y) 趋近于0,则 G(X,Y) 的值会很大

②只能处理离散属性(连续取值属性需要离散化)

③无法对未分割属性进行处理(空缺值问题 可用平均值或概率法来解决)

④C4.5不包括剪枝,容易受到噪声或波动的影响 (解决办法 K折交叉验证)

   5.4CART(分类回归树):

①引入基于最小距离的基尼指数

② 生成的决策树为二叉树

   5.4.1基尼指数Gini

   

 

   Gini指标考虑每个属性上的二元划分

   对于有n个属性的数据集二元划分总数为

 

方法

CLS

ID3

C4.5

CART

提出者

-

Quinlan

Quinlan

Breiman

属性选择判据

-

信息增益

信息增益比率

基尼指数

判据大小选择

-

最大

最大

最小

生成的树

-

多叉树

多叉树

二叉树

提出顺序

1

2

3

4

5.5 决策树剪枝:

①先剪枝 (限定树的最大生长高度)

②后剪枝  (找出完全生长的树 然后进行剪枝)常见方法:降低分类错误率剪枝,悲观剪枝方法,最短描述长度原则剪枝

6.根据决策树提取分类规则

   规则个数=叶子结点个数

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值