1、Bagging和Boosting的区别
- 样本选择:Bagging算法是有放回的随机采样;Boosting算法是每一轮训练集不变
- 样例权重:Bagging使用随机抽样,样例的权重;Boosting根据错误率不断的调整样例的权重值, 错误率越大则权重越大
- 预测函数:Bagging所有预测模型的权重相等;Boosting算法对于误差小的分类器具有更大的权重
- 并行计算:Bagging算法可以并行生成各个基模型;Boosting理论上只能顺序生产,因为后一个模 型需要前一个模型的结果
- Bagging是减少模型的variance(方差);Boosting是减少模型的Bias(偏度), Bagging里每个分类模型都是强分类器,因为降低的是方差,方差过高需要降低是过拟合; Boosting里每个分类模型都是弱分类器,因为降低的是偏度,偏度过高是欠拟合
2、RF、Adabost、GBDT模型优缺点
RF
- 优点:
- 训练可以并行化,对于大规模样本的训练具有速度的优势
- 由于进行随机选择决策树划分特征列表,这样在样本维度比较高的时候,仍然具有比较高 的训练性能
- 给出各个特征的重要性列表
- 于存在随机抽样,训练出来的模型方差小,泛化能力强
- RF实现简单
- 缺点:
- 在某些噪音比较大的特征上,RF模型容易陷入过拟合
- 取值比较多的划分特征对RF的决策会产生更大的影响,从而有可能影响模型的效果