集成学习task9

Boosting

1. 导论

Bagging思想的实质是:通过Bootstrap 的方式对全样本数据集进行抽样得到抽样子集,对不同的子集使用同一种基本模型进行拟合, 然后投票得出最终的预测。我们也从前面的探讨知道:Bagging主要通过降低方差的方式减少预测误差。那么,本章介绍的Boosting是与 Bagging截然不同的思想,Boosting方法是使用同一组数据集进行反复学习,得到一系列简单模型,然后组合这些模型构成一个预测性能十 分强大的机器学习模型。显然,Boosting思想提高最终的预测效果是通过不断减少偏差的形式,与Bagging有着本质的不同。在Boosting这 一大类方法中,笔者主要介绍两类常用的Boosting方式:Adaptive Boosting 和 Gradient Boosting 以及它们的变体Xgboost、LightGBM以 及Catboost。

2. Boosting方法的基本思路

Boosting方法不是一种特定的学习方法,而是一种在已有的学习方法基础上进行“投票”的方式。具体说来,它是对已有的若干分类器(可谓同类或者异类,且分类效果不死很好,比较弱)进行加权求和得到最终的分类器。虽然从理论上来说, 任何机器学习方法都可以作为Boosting 方法的弱学习器,在实际中,Boosting的弱规则常采用基于规则的方法。

Boosting通过关注弱规则的错误而逐渐组合成强规则,所以它是一种错误驱动的方法。

先介绍两个例子:
第一个例子:不知道大家有没有做过错题本,我们将每次测验的错的题目记录在错题本上,不停的翻阅,直到我们完全掌握(也就是能够在考 试中能够举一反三)。
第二个例子:对于一个复杂任务来说,将多个专家的判断进行适当的综合所作出的判断,要比其中任何一个专家单独判断要好。实际上这是 一种“三个臭皮匠顶个诸葛亮的道理”。
这两个例子都说明Boosting的道理,也就是不错地重复学习达到最终的要求。
Boosting的提出与发展离不开Valiant和 Kearns的努力,历史上正是Valiant和 Kearns提出了"强可学习"和"弱可学习"的概念。那什么是"强可 学习"和"弱可学习"呢?在概率近似正确PAC学习的框架下:
弱学习:识别错误率小于1/2(即准确率仅比随机猜测略高的学习算法)
强学习:识别准确率很高并能在多项式时间内完成的学习算法
非常有趣的是,在PAC 学习的框架下,强可学习和弱可学习是等价的,也就是说一个概念是强可学习的充分必要条件是这个概念是弱可学习 的。这样一来,问题便是:在学习中,如果已经发现了弱可学习算法,能否将他提升至强可学习算法。因为,弱可学习算法比强可学习算法 容易得多。提升方法就是从弱学习算法出发,反复学习,得到一系列弱分类器(又称为基本分类器),然后通过一定的形式去组合这些弱分类 器构成一个强分类器。大多数的Boosting方法都是通过改变训练数据集的概率分布(训练数据不同样本的权值),针对不同概率分布的数据调 用弱分类算法学习一系列的弱分类器。
对于Boosting方法来说,有两个问题需要给出答案:第一个是每一轮学习应该如何改变数据的概率分布,第二个是如何将各个弱分类器组合 起来。关于这两个问题,不同的Boosting算法会有不同的答案,我们接下来介绍一种最经典的Boosting算法----Adaboost,我们需要理解 Adaboost是怎么处理这两个问题以及为什么这么处理的。
4. Adaboost算法
AdaBoost是Boosting方法中最常用的一种。如下是最初的AdaBoost算法的思想:
在这里插入图片描述
具体说来:

给定带有标签的N个训练样本,初始化时每个样本的权重设为1/N,对一下操作循环T次

1、使用给定算法训练分类器ht,注意使用到了样本的权重,即不同的权重的样本,分类器对待态度不同

2、计算该分类器ht的错误率error

3、根据上面计算的错误率error根据给定公式为该分类器设置权重at

4、根据该分类器的权重更新全部训练样本的权重 (注意给样本权重归一化,即所有样本的权重加起来和为1)

循环结束后,根据公式得到最终的分类器

注意此处的ht的分类效果不可太好,如果太好,最后boosting后的效果反而不如ht本身的分类结果。

选择标准:就SVM分类器而言:其参数(方差)不可取太小,分类正确率在50%左右比较合适。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值