三十四、【人工智能】【机器学习】【监督学习】- CatBoost算法模型-CSDN博客

监督学习（Supervised Learning）是机器学习中的一种主要方法，其核心思想是通过已知的输入-输出对（即带有标签的数据集）来训练模型，从而使模型能够泛化到未见的新数据上，做出正确的预测或分类。在监督学习过程中，算法“学习”的依据是这些已标记的例子，目标是找到输入特征与预期输出之间的映射关系。

（二）、监督学习的基本流程

数据收集：获取包含输入特征和对应正确输出标签的训练数据集。
        数据预处理：清洗数据，处理缺失值，特征选择与转换，标准化或归一化数据等，以便于模型学习。
        模型选择：选择合适的算法，如决策树、支持向量机、神经网络等。
        训练：使用训练数据集调整模型参数，最小化预测输出与实际标签之间的差距（损失函数）。
        验证与调优：使用验证集评估模型性能，调整超参数以优化模型。
        测试：最后使用独立的测试集评估模型的泛化能力，确保模型不仅在训练数据上表现良好，也能在未见过的新数据上做出准确预测。

（三）、监督学习分类算法（Classification）

定义：分类任务的目标是学习一个模型，该模型能够将输入数据分配到预定义的几个类别中的一个。这是一个监督学习问题，需要有一组已经标记好类别的训练数据，模型会根据这些数据学习如何区分不同类别。
例子：垃圾邮件检测（垃圾邮件 vs. 非垃圾邮件）、图像识别（猫 vs. 狗）。

二、 CatBoost

（一）、定义

CatBoost是由俄罗斯搜索引擎巨头Yandex开发的一种梯度提升决策树（Gradient Boosting Decision Tree, GBDT）框架。它主要设计用于处理分类特征，能够在训练过程中自动处理类别变量而无需预处理，如编码转换。CatBoost通过引入有序类别特征处理和去除目标编码偏差的技术，显著提高了模型的预测能力与泛化性能，特别是在处理具有大量类别特征的数据集上表现突出。

（二）、基本概念

梯度提升：CatBoost基于梯度提升算法，通过迭代方式构建一系列弱学习器（通常是决策树），并将它们组合成一个强大的预测模型。每个新树的学习目标是修正前一棵树的残差。
自动处理分类特征：这是CatBoost的一大特色，它能够直接接受分类特征作为输入，而不需要手动进行one-hot编码或标签编码等预处理步骤。
目标编码：CatBoost使用了一种称为“目标统计”（Target Statistics）的方法，这是一种目标编码的变体，用于估计类别特征的数值表示，以供决策树使用。
去偏策略：为了避免目标编码带来的过拟合和信息泄露问题，CatBoost在计算目标统计时采用了留一法（Leave-One-Out）和随机化策略，确保了模型的泛化能力。
损失函数：CatBoost支持多种损失函数，包括但不限于平方损失、对数损失、交叉熵损失等，适用于回归和分类任务。