集成学习之随机森林总结

最新推荐文章于 2023-12-19 22:40:53 发布

zhihao_Chen

最新推荐文章于 2023-12-19 22:40:53 发布

阅读量275

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/zhihao_Chen/article/details/89036340

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

参照刘建平大神原文撰写https://www.cnblogs.com/pinard/p/6131423.html

1.集成学习概念

集成学习，对于训练集数据，我们通过训练若干个个体学习器，通过一定的结合策略，就可以最终形成一个强学习器，对于集成学习算法的学习，主要要弄清楚两点：

如何得到若干个弱学习器；
弱学习器之间的结合策略是怎样的。

2.如何得到弱学习器

得到弱学习器的方法主要有两种，如下：

第一种就是所有的个体学习器都是一个种类的，或者说是同质的。比如都是决策树个体学习器，或者都是神经网络个体学习器。
第二种是所有的个体学习器不全是一个种类的，或者说是异质的。比如我们有一个分类问题，对训练集采用支持向量机个体学习器，逻辑回归个体学习器和朴素贝叶斯个体学习器来学习，再通过某种结合策略来确定最终的分类强学习器。
目前来说，同质的个体学习器应用最多，根据个体学习器之间的联系关系强弱，又分为以下两种：
- 各个个体学习器之间是串行的关系，代表算法是boosting算法系列；
- 学习器之间是并行关系，代表算法有bagging系列。

2.1 弱学习器获取之boosting

图来自刘建平大神博客
从图中可以看出，Boosting算法的工作机制是首先从训练集用初始权重训练出一个弱学习器1，根据弱学习的学习误差率表现来更新训练样本的权重，使得之前弱学习器1学习误差率高的训练样本点的权重变高，使得这些误差率高的点在后面的弱学习器2中得到更多的重视。然后基于调整权重后的训练集来训练弱学习器2.，如此重复进行，直到弱学习器数达到事先指定的数目T，最终将这T个弱学习器通过集合策略进行整合，得到最终的强学习器。
最大的特点是串行生成，相当于有反馈的进行学习。

2.2 弱学习器获取之bagging

bagging策略最大的特点是各个弱学习器的生成互不干扰，高效并行生成。如下图：
bagging
从上图可以看出，bagging的个体弱学习器的训练集是通过随机采样得到的。通过T次的随机采样，我们就可以得到T个采样集，对于这T个采样集，我们可以分别独立的训练出T个弱学习器，再对这T个弱学习器通过集合策略来得到最终的强学习器。
对于这里的随机采样有必要做进一步的介绍，这里一般采用的是自助采样法（Bootstrap sampling）,即对于m个样本的原始训练集，我们每次先随机采集一个样本放入采样集，接着把该样本放回，也就是说下次采样时该样本仍有可能被采集到，这样采集m次，最终可以得到m个样本的采样集，由于是随机采样，这样每次的采样集是和原始训练集不同的，和其他采样集也是不同的，这样得到多个不同的弱学习器。

3. 组合策略

3.1 组合策略之平均法

对于数值类的回归预测问题，通常使用的结合策略是平均法，也就是说，对于若干个弱学习器的输出进行平均得到最终的预测输出。
(还没学会公式编辑，盗图)
在这里插入图片描述

3.2 组合策略之投票法

对于分类问题的预测，我们通常使用的是投票法。

最简单的投票法是相对多数投票法，也就是我们常说的少数服从多数，也就是T个弱学习器的对样本x的预测结果中，数量最多的类别ci为最终的分类类别。如果不止一个类别获得最高票，则随机选择一个做最终类别。
稍微复杂的投票法是绝对多数投票法，也就是我们常说的要票过半数。在相对多数投票法的基础上，不光要求获得最高票，还要求票过半数。否则会拒绝预测。
更加复杂的是加权投票法，和加权平均法一样，每个弱学习器的分类票数要乘以一个权重，最终将各个类别的加权票数求和，最大的值对应的类别为最终类别。

3.3 组合策略之学习法

代表方法 Stacking，以下是我总结的Stacking流程图：
在这里插入图片描述
Python实现可参考链接：
https://www.kaggle.com/arthurtok/introduction-to-ensembling-stacking-in-python
或者通过Python工具包：mlxtend ,实现起来非常简单。

4. bagging之随机森林

随机森林其实最主要的是把握两点：

训练CART树的样本随机抽取；
对于普通的决策树，我们会在节点上所有的n个样本特征中选择一个最优的特征来做决策树的左右子树划分，但是RF通过随机选择节点上的一部分样本特征，这个数字小于 $n$ ，假设为 $n s u b$ ，然后在这些随机选择的 $n s u b$ 个样本特征中，选择一个最优的特征来做决策树的左右子树划分。这样进一步增强了模型的泛化能力。
算法流程如下：