BI | 决策树知识点整理

最新推荐文章于 2020-05-31 21:41:12 发布

yangdelu855

最新推荐文章于 2020-05-31 21:41:12 发布

阅读量871

点赞数

分类专栏： BI

本文链接：https://blog.csdn.net/yangdelu855/article/details/92727371

版权

BI 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

BI-决策树

基本概念：决策树是一种典型的分类方法，首先对数据进行处理，利用归纳算法生成可读的规则和决策树，然后使用决策树对新数据进行分析。
基本组成：①倒立的树形结构②顶层节点为根节点，是决策树的开始③每个内部节点表示对一个属性的测试，每个分支都代表一个测试输出④每个叶子节点代表一个类别
生成过程：①树的建立 ②树的剪枝（消除训练数据中的噪声或孤立点对整棵树的影响）
决策树生成算法的特点：①基本的决策树构造是一个贪心算法，采用自上而下、分而治之的递归方式来构造 ②决策树上的各个分支是在对数据不断分组的过程中逐渐生长出来的 ③不能处理连续取值的属性，对于有连续取值的属性需要先进行离散化
常见算法 CLS ID3 C4.5 CART

5.1CLS：①未规定选择测试属性的标准和依据

②采用不同的测试属性及其先后顺序将会生成不同的决策树

5.2 ID3:①1986年，由Qulian提出了ID3算法

②主要针对CLS算法中没解决的属性选择问题而提出

③选择具有最大信息增益的属性作为当前划分节点（利用信息论中信息熵的概念来作为启发函数）

信息源的不确定性越大，熵就越大

5.2.1信息增益：Gain(S,A)=Entropy(S)-Entropy(S,A)

Entropy(S)：为初始的不确定性

Entropy(S,A)：是得到属性A的信息后决策S的不确定性

Gain(S,A)：是属性A对决策S的信息增益，该值越大说明属性A对于降低决策S的不确定性的作用就越大

5.2.2算法缺点：

①偏向分割属性中取值多的一个（取值越多则该属性的信息增益偏大

②只能处理离散属性（连续取值属性需要离散化）

③无法对未分割属性进行处理

④ID3不包括剪枝，容易受到噪声或波动的影响

5.3 C4.5：①引入增益比例（解决偏向分割属性中取值较多的一个属性）

5.3.1 算法缺点：

①当H(Y)中Pi取值约为1是 H(Y) 趋近于0，则 G(X,Y) 的值会很大

②只能处理离散属性（连续取值属性需要离散化）

③无法对未分割属性进行处理（空缺值问题可用平均值或概率法来解决）

④C4.5不包括剪枝，容易受到噪声或波动的影响（解决办法 K折交叉验证）

5.4CART（分类回归树）:

①引入基于最小距离的基尼指数

② 生成的决策树为二叉树

5.4.1基尼指数Gini

Gini指标考虑每个属性上的二元划分

对于有n个属性的数据集二元划分总数为

方法	CLS	ID3	C4.5	CART
提出者	-	Quinlan	Quinlan	Breiman
属性选择判据	-	信息增益	信息增益比率	基尼指数
判据大小选择	-	最大	最大	最小
生成的树	-	多叉树	多叉树	二叉树
提出顺序	1	2	3	4

5.5 决策树剪枝：

①先剪枝（限定树的最大生长高度）

②后剪枝（找出完全生长的树然后进行剪枝）常见方法：降低分类错误率剪枝，悲观剪枝方法，最短描述长度原则剪枝

6.根据决策树提取分类规则

规则个数=叶子结点个数

yangdelu855

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
BI | 决策树知识点整理

BI-决策树基本概念：决策树是一种典型的分类方法，首先对数据进行处理，利用归纳算法生成可读的规则和决策树，然后使用决策树对新数据进行分析。基本组成：①倒立的树形结构②顶层节点为根节点，是决策树的开始③每个内部节点表示对一个属性的测试，每个分支都代表一个测试输出④每个叶子节点代表一个类别生成过程：①树的建立 ②树的剪枝（消除训练数据中的噪声或孤立点对整棵树的影响）决策树生成算法的特...
复制链接

扫一扫

专栏目录