DW_Ensemble_task04

最新推荐文章于 2021-05-24 00:11:31 发布

weixin_46121800

最新推荐文章于 2021-05-24 00:11:31 发布

阅读量51

点赞数

本文链接：https://blog.csdn.net/weixin_46121800/article/details/115919838

版权

Boosting方法基本思路

Boosting 和 Bagging最本质的差别就是对基模型的差别对待，是不停学习后得到的综合投票最高的模型，最终boosting得到的结果偏差（bias）最小，而bagging如前面文章所述，是方差最小。
Boosting过程：
- 1、加法模型将基础模型线性组合
- 2、每轮训练提升错误率小的基模型权重，减小错误率大的模型权重
- 3、改变训练数据集的概率分布，依据概率分布调用弱分类器，组合成强分类器

Adaboost算法

算法1.1（AdaBoost）

输入：训练数据集 $T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_n,y_n)\}$ 其中 $x_i \in \chi \subseteq R^n,y_i\in Y=\{-1,+1\}$ ;弱学习算法;

输出：最终分类器 $G (x)$ 。

（1）初始化训练数据的权值分布 $D_1=(w_{11},\cdots,w_{1i},\cdots,w_{1N}),\qquad w_{1i}=\frac{1}{N},\qquad i=1,2,\cdots,N$
（2）对 $m=1,2,\cdots,M$

（a）使用具有权值分布 $D_m$ 的训练数据集学习，得到基本分类器 $G_m(x):\chi\to \{-1,+1\}$
（b）计算 $G_m(x)$ 在训练数据集上的分类误差率 $e_m=\sum_{i=1}^NP(G_m(x_i)\neq y_i \\ =\sum_{G_m(x_i)\neq y_i}w_{mi}$
（c）计算 $G_m(x)$ 的系数 $\alpha_m=\frac{1}{2}log\frac{1-e_m}{e_m}$
这里的对数是自然对数。
（d）更新训练数据集的权值分布 $D_{m+1}=(w_{m+1,1},\cdots,w_{m+1,i},\cdots,w_{m+1,N})\\ w_{m+1,i}=\frac{w_mi}{Z_m}exp(-\alpha_my_iG_m(x_i)),\qquad i=1,2,\cdots,N$
这里， $Z_m$ 是规范化因子 $Z_m=\sum_{i=1}^Nw_{mi}exp(-\alpha_my_iG_m(x_i))$
它使 $D_{m+1}$ 成为一个概率分布。
（3）构建基本分类器的线性组合 $f(x)=\sum_{m=1}^M\alpha_mG_m(x)$
得到最终分类器 $G(x)=sign(f(x))\\ =sign\left( \sum_{m=1}^M\alpha_mG_m(x) \right)$
1、假设原始数据的每一个训练样本在基本分类器的学习中作用相同
2、更新训练数据的权值分布为下一轮作准备，式 $w_{m+1},i=\frac{w_{mi}}{Z_m}−e^{a_m⋅y_i⋅G_m(xi)}$ 可以写成： $KaTeX parse error: Undefined control sequence: \alpah at position 47: …_{mi}}{Z_m}e^{−\̲a̲l̲p̲a̲h̲_m}, & G_m(x_i)…$

此，从上式可以看到：被基本分类器 $G_m(x)$ 错误分类的样本的权重扩大，被正确分类的样本权重减少，二者相比相差 $e^{2\alpha_m=\frac{1-e_m}{e_m}}$ 倍。
线性组合实现了将M个基本分类器的加权表决，系数 $\alpha_m$ 标志了基本分类器 $G_m(x)$ 的重要性，值得注意的是：所有的 $\alpha_m$ 之和不为1。 $f (x)$ 的符号决定了样本x属于哪一类。

weixin_46121800

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
DW_Ensemble_task04

Boosting方法基本思路Boosting 和 Bagging最本质的差别就是对基模型的差别对待，是不停学习后得到的综合投票最高的模型，最终boosting得到的结果偏差（bias）最小，而bagging如前面文章所述，是方差最小。Boosting过程：1、加法模型将基础模型线性组合2、每轮训练提升错误率小的基模型权重，减小错误率大的模型权重3、改变训练数据集的概率分布，依据概率分布调用弱分类器，组合成强分类器Adaboost算法算法1.1（AdaBoost）输入：训练数据集T=
复制链接

扫一扫