BI-决策树
- 基本概念:决策树是一种典型的分类方法,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策树对新数据进行分析。
- 基本组成:①倒立的树形结构②顶层节点为根节点,是决策树的开始③每个内部节点表示对一个属性的测试,每个分支都代表一个测试输出④每个叶子节点代表一个类别
- 生成过程:①树的建立 ②树的剪枝(消除训练数据中的噪声或孤立点对整棵树的影响)
- 决策树生成算法的特点:①基本的决策树构造是一个贪心算法,采用自上而下、分而治之的递归方式来构造 ②决策树上的各个分支是在对数据不断分组的过程中逐渐生长出来的 ③不能处理连续取值的属性,对于有连续取值的属性需要先进行离散化
- 常见算法 CLS ID3 C4.5 CART
5.1CLS:①未规定选择测试属性的标准和依据
②采用不同的测试属性及其先后顺序将会生成不同的决策树
5.2 ID3:①1986年,由Qulian提出了ID3算法
②主要针对CLS算法中没解决的属性选择问题而提出
③选择具有最大信息增益的属性作为当前划分节点(利用信息论中信息熵的概念来作为启发函数)
信息源的不确定性越大,熵就越大
5.2.1信息增益:Gain(S,A)=Entropy(S)-Entropy(S,A)
Entropy(S):为初始的不确定性
Entropy(S,A):是得到属性A的信息后决策S的不确定性
Gain(S,A):是属性A对决策S的信息增益,该值越大说明属性A对于降低决策S的不确定性的作用就越大
5.2.2算法缺点:
①偏向分割属性中取值多的一个(取值越多 则该属性的信息增益偏大
②只能处理离散属性(连续取值属性需要离散化)
③无法对未分割属性进行处理
④ID3不包括剪枝,容易受到噪声或波动的影响
5.3 C4.5:①引入增益比例(解决偏向分割属性中取值较多的一个属性)
5.3.1 算法缺点:
①当H(Y)中Pi取值约为1是 H(Y) 趋近于0,则 G(X,Y) 的值会很大
②只能处理离散属性(连续取值属性需要离散化)
③无法对未分割属性进行处理(空缺值问题 可用平均值或概率法来解决)
④C4.5不包括剪枝,容易受到噪声或波动的影响 (解决办法 K折交叉验证)
5.4CART(分类回归树):
①引入基于最小距离的基尼指数
② 生成的决策树为二叉树
5.4.1基尼指数Gini
Gini指标考虑每个属性上的二元划分
对于有n个属性的数据集二元划分总数为
方法 | CLS | ID3 | C4.5 | CART |
提出者 | - | Quinlan | Quinlan | Breiman |
属性选择判据 | - | 信息增益 | 信息增益比率 | 基尼指数 |
判据大小选择 | - | 最大 | 最大 | 最小 |
生成的树 | - | 多叉树 | 多叉树 | 二叉树 |
提出顺序 | 1 | 2 | 3 | 4 |
5.5 决策树剪枝:
①先剪枝 (限定树的最大生长高度)
②后剪枝 (找出完全生长的树 然后进行剪枝)常见方法:降低分类错误率剪枝,悲观剪枝方法,最短描述长度原则剪枝
6.根据决策树提取分类规则
规则个数=叶子结点个数