- 集成学习Boosting与Bagging的区别:
- 样本选择的不同:
bagging :训练集在原始集合中采用有放回抽样,每个训练集之间独立,且每个抽取样本子集数量与原始样本数理一致;
boosting:每次迭代的训练集不变,只是每次训练集中每个样例在分类器中的权重会发生改变
- 样例权重的不同:
bagging :每次训练集的样例权重都相同;
boosting:根据错误率来不断调整样例的权重,其中错误率越大,则赋予权重越大
- 预测函数的不同:
bagging :所有分类器的权重相同;
boosting:每个弱分类器都有相应的权重,当分类误差越小,则赋予的分类器权重越大
- 是否并行不同:
bagging :并行计算;
boosting:串行生成的序列化计算
2、集成学习RF与Bagging的区别:
- 样本选择: bagging 和RF都是放回式的随机选取子集
- 弱分类器--决策树的属性选择:
bagging :每个决策树的结点对所有属性;
RF:每个决策树的结点对部分属性(随机选取)
- 泛化性能:
当个体决策树数量较少时,RF性能较差(只包含若干个属性)
随着学习器的增加,RF的性能越来越好