集成框架(framework of ensemble)
集合一系列分类器:
f 1 ( x ) , f 2 ( x ) , f 3 ( x ) , . . . f_{1}(x),f_{2}(x),f_{3}(x),... f1(x),f2(x),f3(x),...
把这些分类器用有效的方法集合在一起
1、Bagging
当模型比较复杂,担心过拟合的时候,可以采用此方法
创造出不同的数据集,然后去训练不同的模型
怎么创造数据集:
假设有N笔训练集,从这N笔训练集里面,抽取N‘笔数据作为新的数据集,接下来用几个不同的复杂模型对数据进行训练,产生四个function
接下来把测试数据丢进这些function里面,得到四个输出,然后对输出进行平均或者投票处理
如果是回归问题,可以用平均的方法处理,如果是分类问题,可以用投票的方式处理。
决策树容易引起过拟合
而采用Bagging的决策树就是随机森林
2、Boosting
适用于模型简单的,用于提高弱分类器,解决欠拟合
怎么得到不同的分类器
可以采用不同的训练集的方式得到不同的模型
得到不同训练集的方法:
1、重采样得到不同的数据集
2、给训练集的数据不同的权重,从而得到新的数据集
如上图所示 u u u是每一笔数据的权重
Adaboost
Adaboost思想:先根据最初数据训练出 f 1 ( x ) f_{1}(x)