集成学习:把性能较低的多种弱学习器,通过适当组合而形成高性能强学习器的方法。
集成学习主要包括两部分:如何得到若干个个体学习器、使用什么样的结合策略结合个体学习器
- 同质集成:集成中只包含同种类型的个体学习器,对应的学习器和算法叫做基学习器,基学习算法
- 异质集成:个体学习器由不同学习算法生成
理论上讲,对弱学习器的集成足以获得好的性能,弱学习器是指泛化性能略优于随机猜测的学习器,二分类精度略高于50%即可,当使用较少的个体学习器或者重用关于常见学习器的经验时会使用较强的学习器。
好的个体学习器应该是好而不同的,保证准确性的前提下也需要保证多样性。
如果基分类器错误率相互独立,随着集成中个体分类器数目T增大,集成错误率呈指数级下降,最终趋向于0.
1.剪枝分类器
剪枝分类器是一种非常简单的分类器,分类效果较差,但是计算成本低,在集成学习中使用效果很好。
方法:任意选择输入变量中的一维,与给定阈值比较进行分类。n个样本可以得到n-1个候选解,计算相邻两个训练样本在分类时的误差,将误差最小的候选解作为分类边界。
2.Bagging学习法
原理:对多个弱学习器独立进行学习
样本选择:自助采样法,从n个训练样本中随机选取n个,允许重复,生成与原始样本有些许差异的样本集
学习过程