DW_智慧海洋_task04

最新推荐文章于 2023-06-27 16:03:06 发布

weixin_46121800

最新推荐文章于 2023-06-27 16:03:06 发布

阅读量94

点赞数

本文链接：https://blog.csdn.net/weixin_46121800/article/details/116034834

版权

模型训练与预测

模型训练与预测的主要步骤为：

(1):导入需要的工具库
(2):对数据预处理，包括导入数据集、处理数据等操作，具体为缺失值处理、连续特征归一化、类别特征转换等
(3):训练模型。选择合适的机器学习模型，利用训练集对模型进行训练，达到最佳拟合效果。
(4):预测结果。将待预测的数据输入到训练好的模型中，得到预测的结果。

模型介绍

随机森林

随机森林是通过集成学习的思想将多棵树集成的一种算法，基本单元是决策树，而它的本质属于机器学习的一个分支——集成学习。随机森林模型的主要优点是：在当前算法中，具有较好的准确率；能够有效地运行在大数据集上；能够处理具有高维特征的输入样本，而且不需要降维；能够评估各个特征在分类问题上的重要性；在生成过程中，能够获取到内部生成误差的一种无偏估计；对于缺省值问题也能够获得很好的结果。

lightGBM
LightGBM详细解读
xgboost
xgboost基本介绍

模型验证

交叉验证
交叉验证是验证分类器性能的一种统计分析方法，其基本思想在某种意义下将原始数据进行分组，一部分作为训练集，另一部分作为验证集。首先是用训练集对分类器进行训练，再利用验证集来测试所得到的的模型，以此来作为评价分类器的性能指标。常用的交叉验证方法包括简单交叉验证、K折交叉验证、留一法交叉验证和留P法交叉验证
1.简单交叉验证(cross validation)
简单交叉验证是将原始数据分为两组，一组作为训练集，另一组作为验证集，利用训练集训练分类器，然后利用验证集验证模型，将最后的分类准确率作为此分类器的性能指标。通常是划分30%的数据作为测试数据
2.K折交叉验证(K-Fold cross validation)
K折交叉验证是将原始数据分为K组，然后将每个子集数据分别做一次验证集，其余的K-1组子集作为训练集，这样就会得到K个模型，将K个模型最终的验证集的分类准确率取平均值，作为K折交叉验证分类器的性能指标。通常设置为K为5或者10.
3.留一法交叉验证(Leave-One-Out Cross Validation，LOO-CV) 留一法交叉验证是指每个训练集由除一个样本之外的其余样本组成，留下的一个样本组成检验集。这样对于N个样本的数据集，可以组成N个不同的训练集和N个不同的验证集，因此该方法会得到N个模型，用N个模型最终的验证集的分类准确率的平均是作为分类器的性能指标。
4.留P法交叉验证
该方法与留一法类似，是从完整数据集中删除P个样本，产生所有可能的训练集和验证集。