集成学习-预备知识

最新推荐文章于 2024-05-25 08:00:00 发布

xn12334

最新推荐文章于 2024-05-25 08:00:00 发布

阅读量322

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_50005008/article/details/111123469

版权

集成学习 : 通过构建并结合多个学习器来完成学习任务。分为同质集成和异质集成。

在这里插入图片描述

集成学习通过将多个学习器结合，常可获得比单一学习器显著优越的泛化能力，这对弱学习器（指单一学习器）尤为明显。

以二分类任务为例:

已知条件

假设有3个分类器h1、h2、h3, 3个测试测试样本测试例1、测试例2、测试例3。其中 √ 代表分类正确，×代表分类错误， f 为真实分类结果。集成学习的结果通过投票法产生，即“少数服从多数”。

实验结果

分类器/测试例	测试例1	测试例2	测试例3	acc
h₁	√	√	×	66.6%
h₂	×	√	√	66.6%
h₃	√	×	√	66.6%
集成	√	√	√	100%

集成提升性能

分类器/测试例	测试例1	测试例2	测试例3	acc
h₁	√	√	×	66.6%
h₂	√	√	×	66.6%
h₃	√	√	×	66.6%
集成	√	√	×	66.6%

集成不起作用

分类器/测试例	测试例1	测试例2	测试例3	acc
h₁	√	×	×	33.3%
h₂	×	√	×	33.3%
h₃	×	×	√	33.3%
集成	√	√	×	0

集成不起作用
结论

要获得好的集成，基学习器要有一定的“准确度”，并且学习器间要具有差异。

同样以二分类问题为例,分析集成学习的错误率。
设分类正确为+1，分类错误为-1,则 y∈{-1, +1} 。f为真实函数。假设基分类器的错误率为 $\xi$ ，则每个基分类器h_i, 有

P( h _i(x)

\not=

f(x)) =

\xi

假设集成使用T个基分类器并通过简单投票法，则有超过一半的基分类器正确，则集成分类正确。 F(x) = sign(

\sum_{i=1}^T

h _i( x))( sign()为符号函数)
假设基分类器的错误率相互独立，假设X为T个基分类器的分类正确的次数，则随机变量服从二项分布X~B(T, 1-

\xi

)，同时结合Hoeffding不等式可知，集成的错误率为：
在这里插入图片描述

可见，随着集成中个体分类器数目T的增多,集成的错误率将指数级下降，最终趋向于零。但是在实际中，个体训练器都是为解决同一个任务解决的，很难满足相互独立这个条件。一般来说，准确性很高之后，增加多样性就需要牺牲准确性。因此一个好的集成需要兼顾多样性和准确性。

注：
Hoeffding不等式定义如下：
在这里插入图片描述

关注