五、【机器学习】【监督学习】- 决策树 (Decision Trees)

暴躁的大熊

已于 2024-07-13 08:59:31 修改

阅读量1.1k

点赞数 26

分类专栏：机器学习文章标签：机器学习学习决策树

于 2024-07-05 11:25:40 首次发布

本文链接：https://blog.csdn.net/xgq8217/article/details/139954303

版权

机器学习专栏收录该内容

23 篇文章 0 订阅

订阅专栏

系列文章目录

第一章【机器学习】初识机器学习

第二章【机器学习】【监督学习】- 逻辑回归算法 (Logistic Regression)

第三章【机器学习】【监督学习】- 支持向量机 (SVM)

第四章【机器学习】【监督学习】- K-近邻算法 (K-NN)

第五章【机器学习】【监督学习】- 决策树 (Decision Trees)

第六章【机器学习】【监督学习】- 梯度提升机 (Gradient Boosting Machine, GBM)

第七章【机器学习】【监督学习】-神经网络 (Neural Networks)

第八章【机器学习】【监督学习】-卷积神经网络 (CNN)

第九章【机器学习】【监督学习】-循环神经网络 (RNN)

第十章【机器学习】【监督学习】-线性回归

第十一章【机器学习】【监督学习】-局部加权线性回归 (Locally Weighted Linear Regression, LWLR)

第十二章【机器学习】【监督学习】- 岭回归 (Ridge Regression)

文章目录

（三）、监督学习分类算法（Classification）

二、决策树 (Decision Trees)

前言

在先前的文章系列中，我们深入探讨了机器学习的基础框架和算法分类，为读者构建了关于这一领域的坚实理论基础。本章节我们将焦点转向监督学习领域中的一个核心算法—— 决策树 (Decision Trees)，旨在详尽解析其内在逻辑、应用实践及重要参数调整策略。

一、基本定义

（一）、监督学习

监督学习（Supervised Learning）是机器学习中的一种主要方法，其核心思想是通过已知的输入-输出对（即带有标签的数据集）来训练模型，从而使模型能够泛化到未见的新数据上，做出正确的预测或分类。在监督学习过程中，算法“学习”的依据是这些已标记的例子，目标是找到输入特征与预期输出之间的映射关系。

（二）、监督学习的基本流程

数据收集：获取包含输入特征和对应正确输出标签的训练数据集。
        数据预处理：清洗数据，处理缺失值，特征选择与转换，标准化或归一化数据等，以便于模型学习。
        模型选择：选择合适的算法，如决策树、支持向量机、神经网络等。
        训练：使用训练数据集调整模型参数，最小化预测输出与实际标签之间的差距（损失函数）。
        验证与调优：使用验证集评估模型性能，调整超参数以优化模型。
        测试：最后使用独立的测试集评估模型的泛化能力，确保模型不仅在训练数据上表现良好，也能在未见过的新数据上做出准确预测。

（三）、监督学习分类算法（Classification）

定义：分类任务的目标是学习一个模型，该模型能够将输入数据分配到预定义的几个类别中的一个。这是一个监督学习问题，需要有一组已经标记好类别的训练数据，模型会根据这些数据学习如何区分不同类别。
例子：垃圾邮件检测（垃圾邮件 vs. 非垃圾邮件）、图像识别（猫 vs. 狗）。

二、决策树 (Decision Trees)

（一）、定义

决策树是一种监督学习方法，主要用于分类和回归任务。它通过递归地分割数据集，构建一个树状结构的模型，其中每个内部节点表示一个特征上的测试，每个分支代表一个测试结果，而每个叶节点则代表一个类别（在分类任务中）或一个输出值（在回归任务中）。决策树的构建过程就是寻找最佳的特征分割点，使得依据这个特征分割后的子集尽可能纯净，即属于同一类别的样本尽可能集中。

（二）、基本概念

特征选择：决策树算法的关键在于选择最佳特征进行划分。常用的特征选择准则包括信息增益（ID3算法）、信息增益比（C4.5算法）、基尼不纯度（CART算法）等。
剪枝：为了避免过拟合，决策树通常会进行剪枝操作，包括预剪枝（在树构建过程中提前停止分裂）和后剪枝（先生成完整的树，再删除不重要的分支）。
纯度：用来衡量一个节点所包含的样本属于同一类别的程度，常用的纯度度量有熵、基尼指数等。

（三）、扩展知识

3.1 ID3算法

ID3算法（Iterative Dichotomiser 3）是由Ross Quinlan于1986年提出的一种决策树学习算法，主要用于分类任务。它是决策树领域内的一个里程碑，特别是在特征选择时采用信息增益作为评价标准。下面是关于ID3算法的详细介绍：

基本概念

ID3算法的核心思想是自顶向下递归地构建决策树，通过选择信息增益最大的特征来进行数据集的分割，直至满足某个停止条件（如节点中的所有实例都属于同一类别、没有更多特征可用或者达到预设的树深度等）。

特征选择：信息增益

信息熵（Entropy）：衡量数据集纯度的指标。如果数据集D中第k类样本的比例为pk，则D的信息熵H(D)定义为：

其中K为类别总数。熵越大，数据集的不确定性越高。

信息增益：特征A对数据集D的信息增益IG(A)定义为数据集D的信息熵减去按特征A划分后各子集的熵的加权平均：

其中，Dv是数据集D中特征A取值为v的子集，|Dv|和|D|分别表示子集和原数据集的样本数量。信息增益反映了使用特征A划分前后不确定性减少的程度，增益越大说明特征A的区分能力越强。

算法步骤

计算所有特征的信息增益。
选择信息增益最大的特征作为当前节点的分裂特征。
根据选定特征的不同取值，将数据集分割成若干子集。
对每个子集递归地执行步骤1-3，直到所有子集要么属于同一类别，要么无法进一步划分。
将叶子节点标记为该子集中样本最多的类别。

优缺点

优点：

直观易懂，生成的决策树可解释性强。
能够处理离散型特征。

缺点：

对连续型特征处理能力弱，需要预先离散化。
容易产生过拟合，尤其是当特征中有高度相关的属性时。
使用信息增益作为标准，偏向于选择具有大量值的特征，可能不总是最优选择。
没有考虑数据集的分布情况，可能会对训练集噪声敏感。

ID3算法的这些局限性促使了后续更强大和稳健的决策树算法的出现，如C4.5算法（引入了信息增益比来改进信息增益的缺点）和CART算法（支持回归任务，采用基尼不纯度作为特征选择标准）。

3.2 C4.5算法

C4.5相较于其前身ID3，在处理连续属性、缺失值、剪枝策略以及生成更易于理解的规则集等方面都有显著改进。

主要特点：

处理连续属性：C4.5能够自动地将连续属性离散化，将其转换为多个区间，从而适用于决策树的构建。

处理缺失值：C4.5使用了一种统计方法来估计缺失值的影响，允许在数据不完整的情况下进行决策树的构建。

剪枝策略：为了防止过拟合，C4.5采用了预剪枝和后剪枝两种策略。预剪枝是在构建过程中就停止某些分支的进一步分裂；后剪枝则是在决策树完全构建完成后，移除那些对预测结果贡献较小的子树。

生成规则集：C4.5不仅能生成决策树，还能将其转化为一组IF-THEN规则，这使得模型的解释性更强。

算法流程：

选择最佳特征：根据信息增益比（Gain Ratio）或信息增益（Information Gain）选择当前数据集中划分效果最好的特征。

分割数据集：根据所选特征的不同取值，将数据集分割成若干个子集。

递归构建决策树：对每个子集重复上述过程，直到满足停止条件（如所有实例属于同一类别，或没有更多特征可选）。

剪枝：根据预剪枝或后剪枝策略，对决策树进行简化，提高泛化能力。

生成规则集：将决策树转换为一系列规则，便于理解和应用。

C4.5算法因其强大的功能和灵活性，在数据挖掘、机器学习等领域得到了广泛应用，尤其是在需要解释性强的模型场景中，C4.5往往能提供直观且准确的决策依据。

（四）、训练过程

初始化：选择根节点，将所有训练数据置于根节点。
选择最佳分割特征：根据选定的特征选择准则（如信息增益），从当前节点的所有特征中选择一个最佳特征。
分割数据：根据最佳特征的各个取值，将当前节点的数据集分割成若干子集。
创建子节点：为每个子集创建一个新的子节点，并将其作为当前节点的子节点。
递归构建：对每个子节点重复步骤2-4，直到满足停止条件（如节点中的样本属于同一类别、达到预设的最大深度或最小样本数等）。
剪枝：根据剪枝策略，对树进行简化，以减少过拟合风险。

（五）、特点

易于理解和解释：决策树模型的规则清晰，可直接从树结构中读出决策规则。
无需归一化处理：与某些机器学习算法不同，决策树不需要对特征进行归一化。
可以处理非线性关系：决策树通过多级判断，能够捕捉数据中的非线性关系。
同时适用于分类和回归：通过调整算法细节，决策树既可用于分类任务，也可用于回归任务。

（六）、适用场景

决策树广泛应用于金融风控、医疗诊断、市场营销、电子商务等领域，适合处理具有清晰特征属性和目标变量分类的问题。例如，银行信用评分、疾病诊断、顾客购买行为预测等。

（六）、扩展

随机森林：通过构建多个决策树并集成它们的预测结果，以提高模型的稳定性和准确性。
梯度提升决策树（Gradient Boosting Decision Tree, GBDT）：通过逐步添加决策树来逐步减少预测误差，形成一个强大的预测模型。

三、总结

决策树作为一种经典且实用的机器学习方法，凭借其良好的解释性、处理非线性关系的能力以及广泛的应用领域，成为数据科学家和分析师的重要工具。通过不断地优化和扩展，如集成学习中的随机森林和梯度提升决策树，决策树技术在现代机器学习中仍然保持着其重要地位。理解其基本原理和应用范围，有助于在面对复杂数据问题时做出更加明智的选择。

更多内容，防止走丢，请关注公众号，公众号会持续更新各类技术内容和职场介绍：

码上云游

暴躁的大熊

关注

26
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
五、【机器学习】【监督学习】- 决策树 (Decision Trees)

在先前的文章系列中，我们深入探讨了机器学习的基础框架和算法分类，为读者构建了关于这一领域的坚实理论基础。本章节我们将焦点转向监督学习领域中的一个核心算法—— 决策树 (Decision Trees)，旨在详尽解析其内在逻辑、应用实践及重要参数调整策略。监督学习（Supervised Learning）是机器学习中的一种主要方法，其核心思想是通过已知的输入-输出对（即带有标签的数据集）来训练模型，从而使模型能够泛化到未见的新数据上，做出正确的预测或分类。
复制链接

扫一扫