五、【机器学习】【监督学习】- 决策树 (Decision Trees)

 系列文章目录

第一章 【机器学习】初识机器学习

第二章 【机器学习】【监督学习】- 逻辑回归算法 (Logistic Regression)

第三章 【机器学习】【监督学习】- 支持向量机 (SVM)

第四章【机器学习】【监督学习】- K-近邻算法 (K-NN)

第五章【机器学习】【监督学习】- 决策树 (Decision Trees)

第六章【机器学习】【监督学习】- 梯度提升机 (Gradient Boosting Machine, GBM)

第七章 【机器学习】【监督学习】-神经网络 (Neural Networks)

第八章【机器学习】【监督学习】-卷积神经网络 (CNN)

第九章【机器学习】【监督学习】-循环神经网络 (RNN)

第十章【机器学习】【监督学习】-线性回归

第十一章【机器学习】【监督学习】-局部加权线性回归 (Locally Weighted Linear Regression, LWLR)

第十二章【机器学习】【监督学习】- 岭回归 (Ridge Regression)


文章目录 

 系列文章目录

前言

一、基本定义

(一)、监督学习

(二)、监督学习的基本流程

(三)、监督学习分类算法(Classification)

二、 决策树 (Decision Trees)

(一)、定义

(二)、基本概念

(三)、扩展知识

3.1 ID3算法

3.2 C4.5算法

(四)、训练过程

(五)、特点

(六)、适用场景

三、总结


前言

    在先前的文章系列中,我们深入探讨了机器学习的基础框架和算法分类,为读者构建了关于这一领域的坚实理论基础。本章节我们将焦点转向监督学习领域中的一个核心算法—— 决策树 (Decision Trees),旨在详尽解析其内在逻辑、应用实践及重要参数调整策略。


一、基本定义

(一)、监督学习

        监督学习(Supervised Learning)是机器学习中的一种主要方法,其核心思想是通过已知的输入-输出对(即带有标签的数据集)来训练模型,从而使模型能够泛化到未见的新数据上,做出正确的预测或分类。在监督学习过程中,算法“学习”的依据是这些已标记的例子,目标是找到输入特征与预期输出之间的映射关系。

(二)、监督学习的基本流程

        数据收集:获取包含输入特征和对应正确输出标签的训练数据集。
        数据预处理:清洗数据,处理缺失值,特征选择与转换,标准化或归一化数据等,以便于模型学习。
        模型选择:选择合适的算法,如决策树、支持向量机、神经网络等。
        训练:使用训练数据集调整模型参数,最小化预测输出与实际标签之间的差距(损失函数)。
        验证与调优:使用验证集评估模型性能,调整超参数以优化模型。
        测试:最后使用独立的测试集评估模型的泛化能力,确保模型不仅在训练数据上表现良好,也能在未见过的新数据上做出准确预测。

(三)、监督学习分类算法(Classification)

        定义:分类任务的目标是学习一个模型,该模型能够将输入数据分配到预定义的几个类别中的一个。这是一个监督学习问题,需要有一组已经标记好类别的训练数据,模型会根据这些数据学习如何区分不同类别。
        例子:垃圾邮件检测(垃圾邮件 vs. 非垃圾邮件)、图像识别(猫 vs. 狗)。

二、 决策树 (Decision Trees)

(一)、定义

       决策树是一种监督学习方法,主要用于分类和回归任务。它通过递归地分割数据集,构建一个树状结构的模型,其中每个内部节点表示一个特征上的测试,每个分支代表一个测试结果,而每个叶节点则代表一个类别(在分类任务中)或一个输出值(在回归任务中)。决策树的构建过程就是寻找最佳的特征分割点,使得依据这个特征分割后的子集尽可能纯净,即属于同一类别的样本尽可能集中。

(二)、基本概念

  1. 特征选择:决策树算法的关键在于选择最佳特征进行划分。常用的特征选择准则包括信息增益(ID3算法)、信息增益比(C4.5算法)、基尼不纯度(CART算法)等。
  2. 剪枝:为了避免过拟合,决策树通常会进行剪枝操作,包括预剪枝(在树构建过程中提前停止分裂)和后剪枝(先生成完整的树,再删除不重要的分支)。
  3. 纯度:用来衡量一个节点所包含的样本属于同一类别的程度,常用的纯度度量有熵、基尼指数等。

(三)、扩展知识

3.1 ID3算法

    ID3算法(Iterative Dichotomiser 3)是由Ross Quinlan于1986年提出的一种决策树学习算法,主要用于分类任务。它是决策树领域内的一个里程碑,特别是在特征选择时采用信息增益作为评价标准。下面是关于ID3算法的详细介绍:

基本概念

    ID3算法的核心思想是自顶向下递归地构建决策树,通过选择信息增益最大的特征来进行数据集的分割,直至满足某个停止条件(如节点中的所有实例都属于同一类别、没有更多特征可用或者达到预设的树深度等)。

特征选择:信息增益

  • 信息熵(Entropy):衡量数据集纯度的指标。如果数据集D中第k类样本的比例为pk,则D的信息熵H(D)定义为:

    其中K为类别总数。熵越大,数据集的不确定性越高。

  • 信息增益:特征A对数据集D的信息增益IG(A)定义为数据集D的信息熵减去按特征A划分后各子集的熵的加权平均:

    其中,Dv是数据集D中特征A取值为v的子集,|Dv|和|D|分别表示子集和原数据集的样本数量。信息增益反映了使用特征A划分前后不确定性减少的程度,增益越大说明特征A的区分能力越强。

算法步骤

  1. 计算所有特征的信息增益
  2. 选择信息增益最大的特征作为当前节点的分裂特征
  3. 根据选定特征的不同取值,将数据集分割成若干子集
  4. 对每个子集递归地执行步骤1-3,直到所有子集要么属于同一类别,要么无法进一步划分。
  5. 将叶子节点标记为该子集中样本最多的类别

优缺点

优点:

  • 直观易懂,生成的决策树可解释性强。
  • 能够处理离散型特征。

缺点

  • 对连续型特征处理能力弱,需要预先离散化。
  • 容易产生过拟合,尤其是当特征中有高度相关的属性时。
  • 使用信息增益作为标准,偏向于选择具有大量值的特征,可能不总是最优选择。
  • 没有考虑数据集的分布情况,可能会对训练集噪声敏感。

        ID3算法的这些局限性促使了后续更强大和稳健的决策树算法的出现,如C4.5算法(引入了信息增益比来改进信息增益的缺点)和CART算法(支持回归任务,采用基尼不纯度作为特征选择标准)。

3.2 C4.5算法

C4.5相较于其前身ID3,在处理连续属性、缺失值、剪枝策略以及生成更易于理解的规则集等方面都有显著改进。

主要特点:

  1. 处理连续属性:C4.5能够自动地将连续属性离散化,将其转换为多个区间,从而适用于决策树的构建。

  2. 处理缺失值:C4.5使用了一种统计方法来估计缺失值的影响,允许在数据不完整的情况下进行决策树的构建。

  3. 剪枝策略:为了防止过拟合,C4.5采用了预剪枝和后剪枝两种策略。预剪枝是在构建过程中就停止某些分支的进一步分裂;后剪枝则是在决策树完全构建完成后,移除那些对预测结果贡献较小的子树。

  4. 生成规则集:C4.5不仅能生成决策树,还能将其转化为一组IF-THEN规则,这使得模型的解释性更强。

算法流程:

  1. 选择最佳特征:根据信息增益比(Gain Ratio)或信息增益(Information Gain)选择当前数据集中划分效果最好的特征。

  2. 分割数据集:根据所选特征的不同取值,将数据集分割成若干个子集。

  3. 递归构建决策树:对每个子集重复上述过程,直到满足停止条件(如所有实例属于同一类别,或没有更多特征可选)。

  4. 剪枝:根据预剪枝或后剪枝策略,对决策树进行简化,提高泛化能力。

  5. 生成规则集:将决策树转换为一系列规则,便于理解和应用。

C4.5算法因其强大的功能和灵活性,在数据挖掘、机器学习等领域得到了广泛应用,尤其是在需要解释性强的模型场景中,C4.5往往能提供直观且准确的决策依据。

(四)、训练过程

  1. 初始化:选择根节点,将所有训练数据置于根节点。
  2. 选择最佳分割特征:根据选定的特征选择准则(如信息增益),从当前节点的所有特征中选择一个最佳特征。
  3. 分割数据:根据最佳特征的各个取值,将当前节点的数据集分割成若干子集。
  4. 创建子节点:为每个子集创建一个新的子节点,并将其作为当前节点的子节点。
  5. 递归构建:对每个子节点重复步骤2-4,直到满足停止条件(如节点中的样本属于同一类别、达到预设的最大深度或最小样本数等)。
  6. 剪枝:根据剪枝策略,对树进行简化,以减少过拟合风险。

(五)、特点

  1. 易于理解和解释:决策树模型的规则清晰,可直接从树结构中读出决策规则。
  2. 无需归一化处理:与某些机器学习算法不同,决策树不需要对特征进行归一化。
  3. 可以处理非线性关系:决策树通过多级判断,能够捕捉数据中的非线性关系。
  4. 同时适用于分类和回归:通过调整算法细节,决策树既可用于分类任务,也可用于回归任务。

(六)、适用场景

        决策树广泛应用于金融风控、医疗诊断、市场营销、电子商务等领域,适合处理具有清晰特征属性和目标变量分类的问题。例如,银行信用评分、疾病诊断、顾客购买行为预测等。

(六)、扩展

  • 随机森林:通过构建多个决策树并集成它们的预测结果,以提高模型的稳定性和准确性。
  • 梯度提升决策树(Gradient Boosting Decision Tree, GBDT):通过逐步添加决策树来逐步减少预测误差,形成一个强大的预测模型。

三、总结

        决策树作为一种经典且实用的机器学习方法,凭借其良好的解释性、处理非线性关系的能力以及广泛的应用领域,成为数据科学家和分析师的重要工具。通过不断地优化和扩展,如集成学习中的随机森林和梯度提升决策树,决策树技术在现代机器学习中仍然保持着其重要地位。理解其基本原理和应用范围,有助于在面对复杂数据问题时做出更加明智的选择。

  更多内容,防止走丢,请关注公众号,公众号会持续更新各类技术内容和职场介绍:

                                             

码上云游

  • 26
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值