六、【机器学习】【监督学习】-梯度提升机 (Gradient Boosting Machine, GBM)

暴躁的大熊

已于 2024-07-13 09:00:22 修改

阅读量990

点赞数 16

分类专栏：机器学习文章标签：机器学习学习 boosting

于 2024-07-05 11:34:19 首次发布

本文链接：https://blog.csdn.net/xgq8217/article/details/140203811

版权

机器学习专栏收录该内容

11 篇文章 0 订阅

订阅专栏

系列文章目录

第一章【机器学习】初识机器学习

第二章【机器学习】【监督学习】- 逻辑回归算法 (Logistic Regression)

第三章【机器学习】【监督学习】- 支持向量机 (SVM)

第四章【机器学习】【监督学习】- K-近邻算法 (K-NN)

第五章【机器学习】【监督学习】- 决策树 (Decision Trees)

第六章【机器学习】【监督学习】- 梯度提升机 (Gradient Boosting Machine, GBM)

第七章【机器学习】【监督学习】-神经网络 (Neural Networks)

第八章【机器学习】【监督学习】-卷积神经网络 (CNN)

第九章【机器学习】【监督学习】-循环神经网络 (RNN)

第十章【机器学习】【监督学习】-线性回归

第十一章【机器学习】【监督学习】-局部加权线性回归 (Locally Weighted Linear Regression, LWLR)

第十二章【机器学习】【监督学习】- 岭回归 (Ridge Regression)

（三）、监督学习分类算法（Classification）

二、梯度提升机 (Gradient Boosting Machine, GBM)

前言

在先前的文章系列中，我们深入探讨了机器学习的基础框架和算法分类，为读者构建了关于这一领域的坚实理论基础。本章节我们将焦点转向监督学习领域中的一个核心算法—— 决策树 (Decision Trees)，旨在详尽解析其内在逻辑、应用实践及重要参数调整策略。

一、基本定义

（一）、监督学习

监督学习（Supervised Learning）是机器学习中的一种主要方法，其核心思想是通过已知的输入-输出对（即带有标签的数据集）来训练模型，从而使模型能够泛化到未见的新数据上，做出正确的预测或分类。在监督学习过程中，算法“学习”的依据是这些已标记的例子，目标是找到输入特征与预期输出之间的映射关系。

（二）、监督学习的基本流程

数据收集：获取包含输入特征和对应正确输出标签的训练数据集。
        数据预处理：清洗数据，处理缺失值，特征选择与转换，标准化或归一化数据等，以便于模型学习。
        模型选择：选择合适的算法，如决策树、支持向量机、神经网络等。
        训练：使用训练数据集调整模型参数，最小化预测输出与实际标签之间的差距（损失函数）。
        验证与调优：使用验证集评估模型性能，调整超参数以优化模型。
        测试：最后使用独立的测试集评估模型的泛化能力，确保模型不仅在训练数据上表现良好，也能在未见过的新数据上做出准确预测。

（三）、监督学习分类算法（Classification）

定义：分类任务的目标是学习一个模型，该模型能够将输入数据分配到预定义的几个类别中的一个。这是一个监督学习问题，需要有一组已经标记好类别的训练数据，模型会根据这些数据学习如何区分不同类别。
例子：垃圾邮件检测（垃圾邮件 vs. 非垃圾邮件）、图像识别（猫 vs. 狗）。

二、梯度提升机 (Gradient Boosting Machine, GBM)

（一）、定义

梯度提升机(GBM)是一种集成学习算法，通过迭代的方式组合多个弱学习器（通常是决策树），以最小化预测误差。GBM的核心思想是逐步添加新的模型来修正现有模型的残差，从而实现性能的持续提升。

（二）、基本概念

弱学习器：单个模型的预测能力较弱，但当它们被组合在一起时，可以形成一个强学习器。
损失函数：用于衡量模型预测与实际值之间的差距，GBM的目标是最小化这个损失函数。
梯度提升：利用损失函数的负梯度作为目标函数进行优化，每次迭代都是为了最小化损失函数的梯度。

（三）、训练过程

初始化模型：通常使用一个简单的模型（如平均值）作为初始预测。
计算残差：计算当前模型预测与真实值之间的残差，即损失函数的负梯度。
拟合弱学习器：基于当前残差拟合一个新的弱学习器（例如决策树）。
更新预测值：将新模型的输出加权加入到现有模型的预测中，以减小残差。
重复迭代：重复步骤2至4，直到达到预定的迭代次数或模型收敛。

（四）、特点

序列性：GBM模型是顺序构建的，每一个模型都依赖于前一个模型的结果。
泛化能力强：通过集成多个弱学习器，GBM能够捕获数据中的复杂模式，具有较强的泛化能力。
对异常值敏感：由于GBM试图最小化所有样本的预测误差，因此对异常值非常敏感。
可解释性较弱：虽然单个决策树具有较好的可解释性，但GBM的整体模型可能难以解释。

（五）、适应场景

回归任务：预测连续数值型目标变量。
分类任务：预测离散类别标签。
高维数据：GBM能够处理具有大量特征的数据集。
非线性关系：能够捕捉数据中的非线性关系和交互效应。

三、总结

梯度提升机(GBM)是一种强大的机器学习算法，尤其擅长处理具有复杂模式和非线性关系的数据。通过逐步迭代并优化损失函数的梯度，GBM能够构建出高精度的预测模型。然而，它也存在一些局限性，比如对异常值的敏感性和模型解释性的欠缺。在实际应用中，选择合适的参数和预处理步骤对于GBM的成功至关重要。

更多内容，防止走丢，请关注公众号，公众号会持续更新各类技术内容和职场介绍：

码上云游

暴躁的大熊

关注

16
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
六、【机器学习】【监督学习】-梯度提升机 (Gradient Boosting Machine, GBM)

在先前的文章系列中，我们深入探讨了机器学习的基础框架和算法分类，为读者构建了关于这一领域的坚实理论基础。本章节我们将焦点转向监督学习领域中的一个核心算法—— 决策树 (Decision Trees)，旨在详尽解析其内在逻辑、应用实践及重要参数调整策略。监督学习（Supervised Learning）是机器学习中的一种主要方法，其核心思想是通过已知的输入-输出对（即带有标签的数据集）来训练模型，从而使模型能够泛化到未见的新数据上，做出正确的预测或分类。
复制链接

扫一扫