机器学习中集成学习算法,stacking和blending
一.原理
1.stacking
stacking是k折交叉验证,元模型的训练数据等同于基于模型的训练数据,该方法为每个样本都生成了元特征,每生成元特征的模型不一样(k是多少,每个模型的数量就是多少);测试集生成元特征时,需要用到k(k fold不是模型)个加权平均;
2.blending
blending是holdout方法,直接将训练集切割成两个部分,仅10%用于元模型的训练;
二.stacking过程解读
三.优劣
1.stacking
2.blending
1.比stacking简单(因为不用进行k次的交叉验证来获得stacker feature)
2.避开了一个信息泄露问题:generlizers和stacker使用了不一样的数据集
3.在团队建模过程中