一、引言
我理解的Kaggle比赛中提高成绩主要有3个地方
- 特征工程
- 调参
- 模型融合
在机器学习训练完模型之后我们要考虑模型的效率问题,常用的模型效率分析手段有:
- 研究模型学习曲线,判断模型是否过拟合或者欠拟合,并做出相应的调整;
- 对于模型权重参数进行分析,对于权重绝对值高/低的特征,可以对特征进行更细化的工作,也可以进行特征组合;
- 进行bad-case分析,对错误的例子分析是否还有什么可以修改挖掘
- 模型融合:模型融合就是训练多个模型,然后按照一定的方法集成过个模型,应为它容易理解、实现也简单,同时效果也很好,在工业界的很多应用,在天池、kaggle比赛中也经常拿来做模型集成。
二、模型融合初探
2.1 什么叫做模型融合
一般来说,通过融合多个不同的模型,可能提升机器学习的性能,这一方法在各种机器学习比赛中广泛应用,比如在kaggle上的otto产品分类挑战赛①中取得冠军和亚军成绩的模型都是融合了1000+模型的“庞然大物”。常见的集成学习&模型融合方法包括:简单的Voting/Averaging(分别对于分类和回归问题)、Stacking、Boosting和Bagging。
下图介绍了模型融合的一般结构:先产生一组”个体学习器 ,再用某种策略将它们结合起来,加强模型效果。
2.2 模型融合应用广泛的原因
可以通过数学证明模型,随着集成中个体分类器数目T 的增大,集成的错误率将指数级下降,最终趋向于零。具体证明在周志华和李航老师的书中都有。它不是具体的指某一个算法,而是一种把多个弱模型融合合并在一起变成一个强模型的思想,也称为集成学习(Ensemble Learning):
1、单个模型容易过拟合,多个模型融合可以提高范化能力
2、单个模型预测能力不高,多个模型往往能提高预测能力
3、对于数据集过大或过小,可以分别进行划分和有放回的操作,产生不同的数据子集,然后通过数据子集训练不同的分类模型,最终合并成一个大的分类器
4、对于多个异构的特征集的时候,很难进行融合,可以考虑每个数据集构建一个分类模型,然后将多个模型融合
5、模型融合算法成功的关键在于能保证弱分类器(弱模型)的多样性,融合不稳定的学习算法能得到更明显的性能提升
2.3 模型融合的条件
个体学习器准确性越高、多样性越大,则融合越好。(,E代表融合后的误差加权均值,代表个体学习器的误差加权均值,代表模型的多样性,也就是各个模型之间的分歧值)
Base Model 之间的相关性要尽可能的小。这就是为什么非 Tree-based Model 往往表现不是最好但还是要将它们包括在 Ensemble 里面的原因。Ensemble 的 Diversity 越大,最终 Model 的 Bias 就越低。
Base Model 之间的性能表现不能差距太大。这其实是一个 Trade-off,在实际中很有可能表现相近的 Model 只有寥寥几个而且它们之间相关性还不低。但是实践告诉我们即使在这种情况下 Ensemble 还是能大幅提高成绩。
2.4 模型融合的分类
按照个体学习器的关系可以分为两类:
- 个体学习器问存在强依赖关系、必须串行生成的序列化方法,代表Boosting方法;
- 个体学习器间不存在强依赖关系、可同时生成的并行化方法,代表是Bagging 和”随机森林” 。
2.5 集成学习与模型融合的区别(其实区别不大)
集成学习是指多个弱分类器有关联地逐步训练集成为强分类器,这种弱分类器一定是同质的分类器。一般把弱分类器集成的强分类器看成是一个分类器。
而多模型融合是多个分类器,这里面比如集成学习得到的强分类器看成是一个分类器。多模型融合一般用来做信息补充或互补,比如用时空模型来为行人重识别模型抽取时空信息作补充。
<