个体与集成
集成学习(ensemble learning )是通过构建结合多个学习器来完成任务,或者被称为多分类器系统。其作用是比起单个学习器从而获得更好的泛化性能。
同质集成:包含同种类型的个体集成器,同质集成中包含的个体学习器被称为“基学习器”,相应的学习算法被称为“基学习算法”。
异质集成:有不同学习算法生成或者学习器生成。
目前学习器分为两大类,分别是个体学习器有着强依赖关系、必须串行生成的蓄力化方法;个体学习器不存在强依赖关系、可以同时生成并行化的方法;前者代表是Boosting, 后者代表是Bagging 和“随机森林”
一、Boosting
Boosting 工作机制:首先从初始训练集训练出一个基学习器,再根据基学习器的表现对样本的分布进行调整,是的先前的基学习器做错的训练样本在后续得到更大的关注。在调整后的样本分布再来训练下一个基学习器;如此反复,知道达到事先指定的值T,最终将T个基学习器进行加权结合。(这里需要关注的是如何进行分布调整?),Boosting族算法最著名的代表是AdaBoost
AdaBoost:
加权模型:
H ( x ) = ∑ t = 1 T