模型融合

最新推荐文章于 2021-11-10 13:26:11 发布

Bethbaby

最新推荐文章于 2021-11-10 13:26:11 发布

阅读量302

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/zyflhh1314/article/details/105317839

版权

1、模型选择
根据样本确定应该选择哪种模型。
参数选择：确定了某类模型之后，模型中可调的参数会影响模型的效果，可以通过交叉验证的方法来确定好的参数。
数据集被分为三部分：训练集、验证集、测试集。
训练集：模型的训练。
验证集：参数/模型的选择。
测试集：模型效果的评估。
交叉验证：基本思想就是将原始数据（dataset）进行分组，一部分做为训练集来训练模型，另一部分做为测试集来评价模型。交叉验证可以用于评估模型的预测性能，尤其是训练好的模型在新数据上的表现，可以在一定程度上减小过拟合；从有限的数据中获取尽可能多的有效信息。
2、模型优化
处理过拟合或者欠拟合问题，方差和偏差
学习曲线
线性模型权重调整
模型融合：将多个学习器组合起来，几个弱学习器联合起来形成强学习器，或者是几个强学习器融合起来成为更好的学习器。
（1）Voting
投票法针对分类模型，多个模型的分类结果进行投票，少数服从多数。除了公平投票外，还可以给投票设置权重，分类器效果越好权重越高，分类器效果越差，权重越低。
（2）Averaging
回归问题：直接取平均值作为最终的预测值，也可以使用加权平均。
分类问题：直接将模型的预测概率做平均，也可以使用加权平均。
可以把所有模型预测的结果作为新的特征，再通过线性回归计算出权重
（3）Ranking
Ranking融合适合排序评估指标，对auc比较有效
（4）Bagging方法，会导致过拟合
　Bagging是Bootstrap Aggregating的缩写。这种方法同样不对模型本身进行操作，而是作用于样本集上。采用的是随机有放回的选择训练数据然后构造分类器，最后进行组合。与Boosting方法中各分类器之间的相互依赖和串行运行不同，Bagging方法中基学习器之间不存在强依赖关系，且同时生成并行运行。
　基本思路为：
在样本集中进行K轮有放回的抽样，每次抽取n个样本，得到K个训练集；
分别用K个训练集训练得到K个模型。
对得到的K个模型预测结果用投票或平均的方式进行融合。
（5）stacking方法，由多种模型组合

（6）AdaBoost方法
Boosting是一种将各种弱分类器串联起来的集成学习方式，每一个分类器的训练都依赖于前一个分类器的结果，顺序运行的方式导致了运行速度慢。和所有融合方式一样，它不会考虑各个弱分类器模型本身结构为何，而是对训练数据（样本集）和连接方式进行操纵以获得更小的误差。但是为了将最终的强分类器的误差均衡，之前所选取的分类器一般都是相对比较弱的分类器，因为一旦某个分类器较强将使得后续结果受到影响太大。所以多用于集成学习而非模型融合（将多个已经有较好效果的模型融合成更好的模型）。