【干货收藏】如何最简单、通俗地理解决策树分类算法？

CDA·数据分析师

于 2024-07-31 08:00:00 发布

阅读量159

点赞数 3

文章标签：决策树分类算法 CDA数据分析师

本文链接：https://blog.csdn.net/yoggieCDA/article/details/140800935

版权

决策树（Decision tree）是基于已知各种情况（特征取值）的基础上，通过构建树型决策结构来进行分析的一种方式，是常用的有监督的分类算法。决策树算法是机器学习中的一种经典算法，它通过一系列的规则对数据进行分类或回归分析。其核心思想是将数据集划分为更小的子集，从而形成一个树状结构，使得数据分析和预测变得更加直观和易于理解。

01决策树概念
决策树由节点和有向边组成。节点分为内部节点和叶节点。内部节点代表一个特征或属性，叶节点代表一个类别。从根节点开始，每个内部节点都会对数据进行一次划分，根据不同的特征值将数据集划分为多个子集。这个过程一直进行到叶节点，每个叶节点都代表一个最终的类别。通俗的来讲，决策树就是一种依赖树型结构进行决策的模型。02决策树的构建过程决策树的构建是一个递归的过程，主要分为以下三个步骤：
第一步：选择最优的特征进行划分

在构建决策树时，首先要选择一个最优的特征进行划分。通常，我们会选择信息增益最大的特征作为划分标准。信息增益是指划分前后数据集不确定性的减少程度。

第二步：根据特征值进行划分

确定了最优的特征后，根据这个特征的值将数据集划分为多个子集。每个子集都包含了数据集中所有在这个特征上取相同值的样本。
第三步：递归构建子树
对每个子集递归地执行上述两个步骤，直到满足停止条件。停止条件可以是数据集已经被完美分类，或者数据集太小，无法再进行有效的划分。

案例1

例如，我们买西瓜的时候肯定想挑一个熟透的好瓜。

一般来讲我们都有一套判断这个西瓜怎么样的标准，比如拍一拍听西瓜的声音是怎么样的？西瓜的色泽是不是鲜明的等等，我们把每个判断标准作为一个树结点，判断结果作为两个子结点连接下一个判断条件，最终得到叶子结点判断这个瓜是好瓜还是坏瓜。这个构建树并且根据树进行决策的过程就叫做决策树算法。
在这里插入图片描述

一般的，一颗决策树只包含一个根结点、若干个内部和若干个叶结点；叶结点对应于决策的结果，其他每个结点则对应于一个属性测试；每个结点包含的样本集合根据属性测试的结果被划分到子结点中；根节点包含样本全集。
案例2

使用决策树模型来分析是否应该换新工作，也是结构化思考的过程，可以帮助你更清晰地评估各种因素并做出决策。以下是构建决策树的步骤：
在这里插入图片描述

案例3

现在要决策是否开始学习，是否学习的决策过程解释：椭圆框内：是决策树的特征（根据特征来分类），比如【女票】；表情图：是决策树的类别（决策树是用来分类的），比如【学习】；有向箭头：是决策树特征的属性值，比如【需要】；决策树本身是个分类过程，当然有着不同的分法，这就像不同的人拥有着不同的价值观，也就对同一事物（女票第一还是吃鸡第一）有着不同的评价。

在这里插入图片描述

03决策树剪枝策略决策树容易产生过拟合现象，即模型在训练集上表现很好，但在测试集上表现不佳。为了解决这个问题，我们需要对决策树进行剪枝。剪枝策略主要有两种：预剪枝在决策树构建过程中，提前停止树的构建。例如，当数据集的划分不再带来信息增益时，就停止划分。后剪枝先让决策树完全生长，然后从下往上对非叶节点进行考察，若将该节点对应的子树替换为叶节点能带来性能提升，则将该子树替换为叶节点。

04决策树算法的优势

易于理解和解释

决策树的结构简单，易于理解。每个节点都代表一个特征，每条边都代表一个判断条件，因此决策过程非常直观。

适用于各种数据类型

决策树既可以处理数值型数据，也可以处理类别型数据。

不需要预处理和参数调整

决策树算法不需要对数据进行标准化或归一化处理，也不需要调整参数。

结论

决策树算法作为一种经典的机器学习算法，以其简单直观、易于理解和实现的特点，在数据分析和预测领域得到了广泛的应用。通过深入理解决策树算法的原理，我们可以更好地利用这一工具，解决实际问题

CDA·数据分析师

关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
【干货收藏】如何最简单、通俗地理解决策树分类算法？

表情图：是决策树的类别（决策树是用来分类的），比如【学习】；决策树本身是个分类过程，当然有着不同的分法，这就像不同的人拥有着不同的价值观，也就对同一事物（女票第一还是吃鸡第一）有着不同的评价。决策树（Decision tree）是基于已知各种情况（特征取值）的基础上，通过构建树型决策结构来进行分析的一种方式，是常用的有监督的分类算法。西瓜的色泽是不是鲜明的等等，我们把每个判断标准作为一个树结点，判断结果作为两个子结点连接下一个判断条件，最终得到叶子结点判断这个瓜是好瓜还是坏瓜。决策树的结构简单，易于理解。
复制链接

扫一扫