决策树算法及其 python 实现

最新推荐文章于 2021-10-25 20:58:18 发布

Glory_g

最新推荐文章于 2021-10-25 20:58:18 发布

阅读量839

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/zhelong3205/article/details/78670281

版权

本文介绍了决策树算法的基本概念、流程、优缺点以及核心部分——如何选择最佳划分特征。详细讨论了信息增益、ID3、C4.5和CART决策树的区别，并给出了ID3决策树的Python实现。

摘要由CSDN通过智能技术生成

决策树算法：

基本介绍：

决策树算法是一类算法的集合，决策树顾名思义是在一棵树上进行决策的方法，称之为决策树算法，决策树首先是一棵树，树的每一个节点表示对一个特征的判断，每一个叶子节点表示一种判断的结果，下面的例子生动地解释了决策树算法的基本思想：每一层对每一个不同的特征进行判断，最后到叶子节点得到判断的答案。

这里写图片描述

决策树算法的基本流程

与一般的树的算法一样，是一种递归的过程。

CreateTree()
检查该节点数据集中的所有子项是否同属一个分类
    if so return 类标签
    else
        寻找划分的最好特征 // 决策树的关键步骤
        再次划分数据集
        创建新的分支节点
        遍历所有的分支节点
            递归调用 CreateTree()
return 分支节点;

决策树的优劣：

优点：计算复杂度不高，输出结果容易理解，算法得到的准确度较高，可以处理多种类型的数据
缺点：容易产生过拟合的问题
使用数据类型：数值型和标称型

算法的核心部分：

算法和核心在于，如何选取最好的划分特征，划分特征的选取直接决定了分类器结果的好坏时间和空间的开销……
划分特征的原则是：将原本无序的数据变得更加有序。
对于不同的特征的选取办法我们分成了三种不同的决策树模型
1. ID3决策树（根据信息增益选择最好的特征）
2. C4.5决策树（根据信息增益率选择最好的特征）
3. CART决策树（根据基尼系数选择最好的特征）