六、【机器学习】【监督学习】-梯度提升机 (Gradient Boosting Machine, GBM)

  系列文章目录

第一章 【机器学习】初识机器学习

第二章 【机器学习】【监督学习】- 逻辑回归算法 (Logistic Regression)

第三章 【机器学习】【监督学习】- 支持向量机 (SVM)

第四章【机器学习】【监督学习】- K-近邻算法 (K-NN)

第五章【机器学习】【监督学习】- 决策树 (Decision Trees)

第六章【机器学习】【监督学习】- 梯度提升机 (Gradient Boosting Machine, GBM)

第七章 【机器学习】【监督学习】-神经网络 (Neural Networks)

第八章【机器学习】【监督学习】-卷积神经网络 (CNN)

第九章【机器学习】【监督学习】-循环神经网络 (RNN)

第十章【机器学习】【监督学习】-线性回归

第十一章【机器学习】【监督学习】-局部加权线性回归 (Locally Weighted Linear Regression, LWLR)

第十二章【机器学习】【监督学习】- 岭回归 (Ridge Regression)


目录

系列文章目录

前言

一、基本定义

(一)、监督学习

(二)、监督学习的基本流程

(三)、监督学习分类算法(Classification)

二、梯度提升机 (Gradient Boosting Machine, GBM)

(一)、定义

(二)、基本概念

(三)、训练过程

(四)、特点

(五)、适应场景

三、总结


前言

    在先前的文章系列中,我们深入探讨了机器学习的基础框架和算法分类,为读者构建了关于这一领域的坚实理论基础。本章节我们将焦点转向监督学习领域中的一个核心算法—— 决策树 (Decision Trees),旨在详尽解析其内在逻辑、应用实践及重要参数调整策略。


一、基本定义

(一)、监督学习

        监督学习(Supervised Learning)是机器学习中的一种主要方法,其核心思想是通过已知的输入-输出对(即带有标签的数据集)来训练模型,从而使模型能够泛化到未见的新数据上,做出正确的预测或分类。在监督学习过程中,算法“学习”的依据是这些已标记的例子,目标是找到输入特征与预期输出之间的映射关系。

(二)、监督学习的基本流程

        数据收集:获取包含输入特征和对应正确输出标签的训练数据集。
        数据预处理:清洗数据,处理缺失值,特征选择与转换,标准化或归一化数据等,以便于模型学习。
        模型选择:选择合适的算法,如决策树、支持向量机、神经网络等。
        训练:使用训练数据集调整模型参数,最小化预测输出与实际标签之间的差距(损失函数)。
        验证与调优:使用验证集评估模型性能,调整超参数以优化模型。
        测试:最后使用独立的测试集评估模型的泛化能力,确保模型不仅在训练数据上表现良好,也能在未见过的新数据上做出准确预测。

(三)、监督学习分类算法(Classification)

        定义:分类任务的目标是学习一个模型,该模型能够将输入数据分配到预定义的几个类别中的一个。这是一个监督学习问题,需要有一组已经标记好类别的训练数据,模型会根据这些数据学习如何区分不同类别。
        例子:垃圾邮件检测(垃圾邮件 vs. 非垃圾邮件)、图像识别(猫 vs. 狗)。


二、梯度提升机 (Gradient Boosting Machine, GBM)

(一)、定义

梯度提升机(GBM)是一种集成学习算法,通过迭代的方式组合多个弱学习器(通常是决策树),以最小化预测误差。GBM的核心思想是逐步添加新的模型来修正现有模型的残差,从而实现性能的持续提升。

(二)、基本概念

  • 弱学习器:单个模型的预测能力较弱,但当它们被组合在一起时,可以形成一个强学习器。
  • 损失函数:用于衡量模型预测与实际值之间的差距,GBM的目标是最小化这个损失函数。
  • 梯度提升:利用损失函数的负梯度作为目标函数进行优化,每次迭代都是为了最小化损失函数的梯度。

(三)、训练过程

  1. 初始化模型:通常使用一个简单的模型(如平均值)作为初始预测。
  2. 计算残差:计算当前模型预测与真实值之间的残差,即损失函数的负梯度。
  3. 拟合弱学习器:基于当前残差拟合一个新的弱学习器(例如决策树)。
  4. 更新预测值:将新模型的输出加权加入到现有模型的预测中,以减小残差。
  5. 重复迭代:重复步骤2至4,直到达到预定的迭代次数或模型收敛。

(四)、特点

  • 序列性:GBM模型是顺序构建的,每一个模型都依赖于前一个模型的结果。
  • 泛化能力强:通过集成多个弱学习器,GBM能够捕获数据中的复杂模式,具有较强的泛化能力。
  • 对异常值敏感:由于GBM试图最小化所有样本的预测误差,因此对异常值非常敏感。
  • 可解释性较弱:虽然单个决策树具有较好的可解释性,但GBM的整体模型可能难以解释。

(五)、适应场景

  • 回归任务:预测连续数值型目标变量。
  • 分类任务:预测离散类别标签。
  • 高维数据:GBM能够处理具有大量特征的数据集。
  • 非线性关系:能够捕捉数据中的非线性关系和交互效应。

三、总结

梯度提升机(GBM)是一种强大的机器学习算法,尤其擅长处理具有复杂模式和非线性关系的数据。通过逐步迭代并优化损失函数的梯度,GBM能够构建出高精度的预测模型。然而,它也存在一些局限性,比如对异常值的敏感性和模型解释性的欠缺。在实际应用中,选择合适的参数和预处理步骤对于GBM的成功至关重要。

    更多内容,防止走丢,请关注公众号,公众号会持续更新各类技术内容和职场介绍:

                                             

码上云游

  • 16
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值