读书笔记 - 机器学习实战 - 7 用AdaBoost算法改进分类

最新推荐文章于 2020-10-05 14:14:29 发布

K5niper

最新推荐文章于 2020-10-05 14:14:29 发布

阅读量1.2k

点赞数 2

分类专栏：机器学习实战

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhaoyin214/article/details/88941112

版权

7 用AdaBoost算法改进分类（Improving classification with the AdaBoost meta-algorithm）

元算法（meta-algorithms）是一种将各种算法组合的方法，用于消除不同机器学习算法求解问题时的差异性。

分类不平衡（classification imbalance）：各类别包含样本数量差异极大。

7.1 使用多样本数据集的分类器（Classifiers using multiple samples of the dataset）

AdaBoost

优点：泛化错误低，易于编程，适用于大多数分类器，无需参数调整

缺点：对异常值敏感

适用范围：数值和标称值

**集成方法（ensemble methods）：**即元算法（meta-algorithms），组合多个分类器。集成方法可以组合不同算法，组合设置了不同参数的同一算法，或将数据集的不同部分分配给不同的分类器。

7.1.1 数据随机重采样构建分类器：Bagging（Building classifiers from randomly resampled data: bagging）

自助聚集（Bootstrap aggreging），即Bagging

（1）生成 $S$ 个新数据集：从原始数据集中抽取数据 $S$ 次，生成 $S$ 个新数据集。新数据集的大小与原始数据集相同，数据是从原始数据集中随机抽取得到。新数据集允许包含重复数据，或不包含原始数据集中的某些数据。

（2）训练：新建 $S$ 个数据集后，分别对每个数据集应用一种学习算法，得到 $S$ 个分类器。

（3）推理： $S$ 个分类器分别对新数据预测，然后投票多数表决（take a majority vote）。

7.1.2 Boosting

Boosting：各分类器依次串行训练，每个新分类器都专注于处理其之前分类器错分的数据。Boosting的输出是所有分类器输出的加权和，各分类器权重（weights）取决于前次迭代各分类器的表现。

采集：

预处理：取决于弱分类器类型，通常弱分类器形式简单，如单层决策树（decision stumps）

分析：

训练：主要时间消耗

测试：计算错误率

使用：二元分类

7.2 训练：专注处理错分样本改进分类器（Train: improving the classifier by focusing on errors）

“弱”分类器：略优于随机猜测；

“强”分类器：远优于随机猜测。

AdaBoost：自适应提升（adaptive boosting）算法，训练步骤如下：

训练数据集 $\left\{ \mathbf{x}_i, y_i \right\}$ ， $\cdots, m$ 。

为训练集中每条样本 $\mathbf{x}_i$ 分配一个权值 $d_i$ ，样本权值向量记为 $\mathbf{d} = \left[ d_1, d_2, \cdots, d_m \right]$ 。

（1）初始化：

弱分类器 $t = 1$ 的样本权值向量 $\mathbf{d}^{(1)}$ 初始设置为 $d_1 = d_2 = \cdots = d_m$ ，在训练数据集上训练弱分类器 $t = 1$ （寻找最佳分类特征、门限及不等式类型等）；

（2）迭代：

计算弱分类器 $(t - 1)$ 的分类错误率

$KaTeX parse error: Expected '}', got '#' at position 27: … = \frac{\text{#̲ of incorrectly…$

计算弱分类器 $(t - 1)$ 的权值

$\alpha = \frac{1}{2} \ln \left( \frac{1 - \varepsilon}{\varepsilon} \right)$

增加弱分类器 $t$ ，根据弱分类器 $(t - 1)$ 的分类错误率计算其样本权值向量 $\mathbf{d}^{(t)}$ ，使已被正确分类样本的权值减少，未被正确分类样本的权值增加：

最低0.47元/天解锁文章

关注

2
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
读书笔记 - 机器学习实战 - 7 用AdaBoost算法改进分类

7 用AdaBoost算法改进分类（Improving classification with the AdaBoost meta-algorithm）元算法（meta-algorithms）是一种将各种算法组合的方法，用于消除不同机器学习算法求解问题时的差异性。分类不平衡（classification imbalance）：各类别包含样本数量差异极大。7.1 使用多样本数据集的分类器（Cl...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。