【定义】
【分类】
- 第一种方法,根据一个基学习器衍生出其他基学习器
- 第二种方法,根据不同的采样子集训练不同的基学习器
Boosting
【步骤】
如此重复,直到基学习器数目达到T
最终将这T个基学习器进行加权
AdaBoost
【原理】利用基学习器的线性组合来最小化指数损失函数
- 指数损失函数
L ( Y , f ( X ) ) = e x p ( − Y f ( X ) ) L(Y,f(X))=exp (-Yf(X)) L(Y,f(X))=exp(−Yf(X))- 0-1损失函数
L ( Y , f ( X ) ) = 1 , ∣ Y − f ( X ) ∣ > = T L(Y,f(X))=1,|Y-f(X)|>=T L(Y,f(X))=1,∣Y−f(X)∣>=T
L ( Y , f ( X ) ) = 0 , ∣ Y − f ( X ) ∣ < T L(Y,f(X))=0,|Y-f(X)|<T L(Y,f(X))=0,∣Y−f(X)∣<T- 绝对值损失
- 对数损失函数
L ( Y , P ( Y ∣ X ) ) = − l o g P ( Y ∣ X ) L(Y,P(Y|X))=-log P(Y|X) L(Y,P(Y∣X))=−logP(Y∣X)
样本X在标签Y的情况下,使概率P(Y|X)达到最大值- 平方损失函数
Bagging
- 利用自主采样法,得到T个不同的采样集,以此得到T个不同的基学习器
- 对分类进行投票,若平票则随机选择
对回归进行平均
Random Forest
RF是Bagging的一个扩展变体
- 对基决策树的每个节点
- 先从该节点的属性集合中随机选择一个包含k个(一般 k = l o g 2 d k=log_2 d k=log2d)属性的子集
- 再从这个子集中选择一个最优属性用于划分