In statistics and machine learning, ensemble methods use multiple learning algorithms to obtain better predictive performance than could be obtained from any of the constituent learning algorithms alone–wiki
在统计和机器学习中,集成方法使用多种学习算法来拥有比任何单个学习算法更好的预测性能。
集成模型基本的原理是一群弱学习器组合形成一个强学习器,这增加了模型的稳定性。当我们试图使用任何机器学习的技术去预测目标变量,使得实际和预测值不同的主要原因是噪音,方差和偏差。集合减少了除噪音外的其他两个因素。
集成学习(ensemble learning) 是战略性地生成并组合多个模型用来解决特定地问题的过程。主要是用来提高模型的分类(classification)、预测(prediction)、函数估计(function approximation)等性能,减少选择不良模型的可能性。集成学习的其它应用还包括:为模型做出的决策评估其自信度(confidence),选择最优(或接近最优)特征,数据融合,增量学习,非平稳学习和纠错。
对于给定的问题,最合适的分类器是什么?这个问题大概可以从下面两个方面来考虑:
1)在众多模型中选择哪种分类器,例如多层感知器(Multilayer Perceptron, MLP),支持向量机(SVM),决策树,贝叶斯等;
2)对于给定的分类算法,应该选择算法的哪种实现方式。例如,即使所有