一、Bagging算法
Bagging是并行集成学习方法最著名的代表,可以用来提高学习算法准确度的方法,这种方法通过构造一个预测函数系列,然后以一定的方式将它们组合成一个预测函数。Bagging要求“不稳定”(不稳定是指数据集的小的变动能够使得分类结果的显著的变动)的分类方法。比如:决策树,神经网络算法。
Bagging的基本流程为:
1、首先采取随机采样(bootsrap),也就是从我们的训练集里面随机采集固定个数的样本,但是每采集一个样本后,都将样本放回。对于我们的Bagging算法,一般会随机采集和训练集样本数m一样个数的样本。这样得到的采样集和训练集样本的个数相同,但是样本内容不同。如果我们对有m个样本训练集做T次的随机采样,,则由于随机性,T个采样集各不相同。
2、随机采样后对样本进行训练,建立分类器(ID3、C4.5、CART、SVM、Logistic回归等算法)。
3、重复上述步骤n次,即可得到n个分类器。