一、简介
集成学习算法系列的起源来自于PAC Learn ability(概率近似可学习),PAC理论定义了学习算法的强弱。
组合分类器是一个复合模型,由多个基分类器组成,给定训练集合后,多分类集合可以训练出多个不同的基分类器。在分类阶段,每个基分类器都参与对测试用例分类并给出结果,然后按照某种方法对不同基分类器给出的分类结果组合得到最终分类结果。
二、组合分类器1-装袋bagging
将K个学习到的模型M1,M2,…,Mk组合在一起,形成一个复合分类模型M*,然后将数据集D划分成k份,D1,D2,…,Dk,用于训练基分类模型M1,M2,…,Mk。当预测一个测试集时,每个基分类器都根据自己预测的结果Voting,组合分类器将得票最高的预测结果作为最终结果输出。
三、组合分类器2-提升AdaBoost
bagging只是将基分类器简单的组合。
AdaBoost是一个迭代过程,使得基分类器更加关注那些在上一轮被错误分类样本。
基本流程如下:
(1)开始的时候,对训练数据集中没一个样本赋予相等的权重1/d
(2)按照权重从D中进行有放回抽样,得到k个训练集后,进而得到k个基分类器。
(3)产生分类器之后,对数据集D进行预测,根据预测结果,调整样本的权重,增大被错误分类的样本权重,减小被正确分类的样本权重。
(4)同时也会对每一个基分类器赋予权重,基分类器的错误率越低,准确率就越高,进而Voting的权重越大。