数据挖掘十大经典算法学习之Adaboost自适应增强学习算法

最新推荐文章于 2024-07-08 17:24:14 发布

zdy0_2004

最新推荐文章于 2024-07-08 17:24:14 发布

阅读量2.2k

点赞数 1

分类专栏：机器学习文章标签：机器学习

机器学习专栏收录该内容

193 篇文章 20 订阅

订阅专栏

http://blog.csdn.net/vshadow/article/details/8227775

定义

The strong and weak learnability are equivalent.

--Kearns and Valiant(1989)

强分类器和弱分类器是相同的，多个弱分类器组合可以达到强分类器的效果。通过迭代生成一列分类器，每个分类器都依赖于之前的一个，之前分类器错分的样本被赋予更高的权重。

训练数据集D为 {(x₁,y₁,w₁),( x₂,y₂,w₂),…,( x_n,y_n,w_n)}。x_i是输入向量，y_i是它的类别并且y_i∈Y（类别集合），w_i是样例的权重并且∑_Iw_i=1。

算法构造k个BaseLearner。每个训练样例的权重均被初始化为1/m。每次迭代中，数据集D_t和D相同，仅权重不同。每次迭代构造一个新的分类器h_t。

算法

AdaBoost算法的具体步骤如下：

1. 初始化样本权重为1/m，即为训练样本的初始权重分布；

3. 第一次迭代:

(1)训练样本的概率分布相当，训练弱分类器;

(2)计算弱分类器的错误率;

(3)选取合适阈值，使得误差最小；

(4)更新样本权重：减小弱分类器分类效果较好的数据的权重，增大弱分类器分类效果较差的数据的权重。

4. 经T次循环后，得到T个弱分类器，按更新的权重叠加，最终得到的强分类器。

[plain]view plaincopy 
    
 AdaBoost(D,Y,BaseLearner,k)  
 Initialize Di(wi)=1/m;           //每个训练样例的权重被初始化为1/m  
 for t=1,.., k do              //k个分类器  
 ht=BaseLearner(Dt);          //构造新的分类器  
 et=∑Dt(wt)[ ht≠y];          //计算ht的错误率  
 if et＞0.5 then              //如果错误率大于抛硬币错误率  
 k=k-1;                   //移除该次迭代并且  
 exit-loop                 //退出该循环  
 else  
   αt= 1/2ln(et/(1-et))        //放大，提高ht的权重  
   Dt+1(wi)= Dt(wi)/Zt×exp(-αt)  if ft(Dt(wi))＝yi or   //正确分类，放大该样本权重  
   Dt+1(wi)= Dt(wi)/Zt×exp(αt)   if ft(Dt(wi))≠yi     //错误分类，缩小该样本权重  
   //即 Dt(wi) exp(-αtyiht(xi))/ Zt ，ht(xi)只有1与-1两个取值  
 endif  
 endfor  
 Output: H(x)=sign(∑t=1Tαtht(x))