机器学习实战之决策树（一）构造决策树

最新推荐文章于 2024-05-22 11:25:42 发布

琼简

最新推荐文章于 2024-05-22 11:25:42 发布

阅读量1.1k

点赞数

文章标签：决策树 python 机器学习

本文链接：https://blog.csdn.net/weixin_45814668/article/details/105947681

版权

决策树（一）构造决策树

1.简介
2.信息增益
- 2.1 几个概念
- 2.2 计算给定数据集的熵
3 划分数据集
- 3.1 按照给定特征划分数据集
- 3.2 选择最好的数据集划分方式
4 递归构建决策树
- 4.1 多数表决
- 4.2 创建树的函数代码

转载请注明作者和出处：https://blog.csdn.net/weixin_45814668
微信公众号：qiongjian0427
知乎：https://www.zhihu.com/people/qiongjian0427
Github代码获取：https://github.com/qiongjian/Machine-learning/
Python版本： Python3.x

1.简介

本文内容基本来自机器学习实战这本书。

k-近邻算法最大的缺点就是无法给出数据的内在含义，决策树的主要优势就在于数据形式非常容易理解。

下图所示决策树，长方形代表判断模块（decision block），椭圆形代表终止模块（terminating block），表示已经得出结论，可以终止运行。从判断模块引出的左右箭头称作分支（branch），它可以到达另一个判断模块或者终止模块。

1.1 优缺点

优点：计算复杂度不高，输出结果易于理解，对中间值的缺失不敏感，可以处理不相关特征数据。

缺点：可能会产生过度匹配问题。

适用数据类型：数值型和标称型。

1.2 流程

(1) 收集数据：可以使用任何方法。

(2) 准备数据：树构造算法只适用于标称型数据，因此数值型数据必须离散化。

(3) 分析数据：可以使用任何方法，构造树完成之后，我们应该检查图形是否符合预期。

(4) 训练算法：构造树的数据结构。

(5) 测试算法：使用经验树计算错误率。

(6) 使用算法：此步骤可以适用于任何监督学习算法，而使用决策树可以更好地理解数据的内在含义。

1.3 决策树的构造

构造决策树需要解决的第一个问题就是，当前数据集那个特征在划分数据时起决定性作用。为了找到这个特征，需要对所有的特征进行评估。

（1）选择一个决定性特征，将训练数据集分成子集，这些子集分布在第一个决策点的分支上。

（2）如果某个分支上的子集属于同一类，则说明这个子集在当前条件下是最好的分类，不需要再进行分割。

（3）如果某个分支上的子集不属于同一类，说明子集不能够被正确的分类，那么就对这些子集选择新的特征，继续分割，直至所有子集都属于同一类。

创建分支的伪代码createBranch()如下：

检测数据集中的每个子项是否属于同一分类：
   If so return 类标签
   Else
       寻找划分数据集的最好特征
       划分数据集
       创建分支节点
           for 每个划分的子集
               调用函数createBranch并增加返回结果到分支节点中      
       return 分支节点

1.4 海洋生物数据

本文使用ID3算法划分数据集，每次划分数据集时我们只选取一个特征属性。
下表展示了海洋生物数据，特征包括：不浮出水面是否可以生存，和是否有脚蹼。
现在我们想要决定依据第一个特征还是第二个特征划分数据。在回答这个问题之前，我们必须采用量化的方法判断如何划分数据。

表1：海洋生物数据

个数	不浮出水面是否可以生存	是否有脚蹼	属于鱼类
1	是	是	是
2	是	是	是
3	是	否	否
4	否	是	否
5	否	是	否

2.信息增益

2.1 几个概念

（1）划分数据的大原则：将无序的数据变得更加有序。
（2）信息论：量化处理信息的分支科学。
（3）信息增益：划分数据之前之后信息发生的变化。信息增益最高的特征就是最好的选择。
（4）香农熵（简称熵entropy）：集合信息度量的方式。定义为信息的期望值。来源于信息论之父克劳德.香农。
（5）如果待分类的事务可能划分在多个分类之中，则符号Xi的信息定义为：
在这里插入图片描述
p(xi)是选择该分类的概率。

为了计算熵，我们需要计算所有类别所有可能值包含的信息期望值，通过下面的公式得到：
在这里插入图片描述
n是分类的数目。

2.2 计算给定数据集的熵

python代码如下：

from math import log
def calcShannonEnt(dataSet):
    # 求list的长度，表示计算参与训练的数据量
    numEntries = len(dataSet)
    # 计算分类标签label出现的次数
    labelCounts = {
   }
    # the the number of unique elements and their occurance
    for featVec in dataSet:
        # 将当前实例的标签存储，即每一行数据的最后一个数据代表的是标签
        currentLabel = featVec[-1]
        # 为所有可能的分类创建字典，如果当前的键值不存在，则扩展字典并将当前键值加入字典。每个键值都记录了当前类别出现的次数。
        if currentLabel not in labelCounts

最低0.47元/天解锁文章

琼简

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
机器学习实战之决策树（一）构造决策树

决策树（一）构造决策树1.简介1.1优缺点1.2 流程1.3决策树的构造1.4海洋生物数据2.信息增益2.1几个概念1.简介本文内容基本来自机器学习实战这本书。k-近邻算法最大的缺点就是无法给出数据的内在含义，决策树的主要优势就在于数据形式非常容易理解。下图所示决策树，长方形代表判断模块（decision block），椭圆形代表终止模块（terminating block），表示已经得出...
复制链接

扫一扫