1、模型选择
根据样本确定应该选择哪种模型。
参数选择:确定了某类模型之后,模型中可调的参数会影响模型的效果,可以通过交叉验证的方法来确定好的参数。
数据集被分为三部分:训练集、验证集、测试集。
训练集:模型的训练。
验证集:参数/模型的选择。
测试集:模型效果的评估。
交叉验证:基本思想就是将原始数据(dataset)进行分组,一部分做为训练集来训练模型,另一部分做为测试集来评价模型。交叉验证可以用于评估模型的预测性能,尤其是训练好的模型在新数据上的表现,可以在一定程度上减小过拟合;从有限的数据中获取尽可能多的有效信息。
2、模型优化
处理过拟合或者欠拟合问题,方差和偏差
学习曲线
线性模型权重调整
模型融合:将多个学习器组合起来,几个弱学习器联合起来形成强学习器,或者是几个强学习器融合起来成为更好的学习器。
(1)Voting
投票法针对分类模型,多个模型的分类结果进行投票,少数服从多数。除了公平投票外,还可以给投票设置权重,分类器效果越好权重越高,分类器效果越差,权重越低。
(2)Averaging
回归问题:直接取平均值作为最终的预测值,也可以使用加权平均。
分类问题:直接将模型的预测概率做平均,也可以使用加权平均。
可以把所有模型预测的结果作为新的特征,再通过线性回归计算出权重
(3)Ranking
Ranking融合适合排序评估指标,对auc比较有效
(4)Bagging方法,会导致过拟合
Bagging是Bootstrap Aggregating的缩写。这种方法同样不对模型本身进行操作,而是作用于样本集上。采用的是随机有放回的选择训练数据然后构造分类器,最后进行组合。与Boosting方法中各分类器之间的相互依赖和串行运行不同,Bagging方法中基学习器之间不存在强依赖关系,且同时生成并行运行。
基本思路为:
在样本集中进行K轮有放回的抽样,每次抽取n个样本,得到K个训练集;
分别用K个训练集训练得到K个模型。
对得到的K个模型预测结果用投票或平均的方式进行融合。
(5)stacking方法,由多种模型组合
(6)AdaBoost方法
Boosting是一种将各种弱分类器串联起来的集成学习方式,每一个分类器的训练都依赖于前一个分类器的结果,顺序运行的方式导致了运行速度慢。和所有融合方式一样,它不会考虑各个弱分类器模型本身结构为何,而是对训练数据(样本集)和连接方式进行操纵以获得更小的误差。但是为了将最终的强分类器的误差均衡,之前所选取的分类器一般都是相对比较弱的分类器,因为一旦某个分类器较强将使得后续结果受到影响太大。所以多用于集成学习而非模型融合(将多个已经有较好效果的模型融合成更好的模型)。
模型融合
最新推荐文章于 2021-11-10 13:26:11 发布