Random Forest学习笔记

最新推荐文章于 2023-06-26 21:45:00 发布

Daft shiner

最新推荐文章于 2023-06-26 21:45:00 发布

阅读量1.6k

点赞数

分类专栏：算法学习文章标签：随机森林机器学习算法

本文链接：https://blog.csdn.net/weixin_46782905/article/details/122785732

版权

算法学习专栏收录该内容

9 篇文章

订阅专栏

今天学习一个经典的机器学习算法，Random Forest，老规矩先放参考文献（ps参考文献筛了好几轮，因为我发现很多文献讲的都不一样）

文章目录

References
Random Forest

References

Random Forest

在这里插入图片描述图源自参考文献2，上图是6个数据，每个数据有5个特征维度，且有两种不同类型的标签，典型的二分类问题。

Bootstrap + Random Feature Selection

对于包含m个样本的原始数据集，对该原始数据集进行可放回抽样m次，上图就对原始数据进行了6次有放回的采样，且该过程重复了四次，接着对每个样本的特征维度也进行采样后得到了上图上半部分，这时你可能会有以下问题：

为什么要可放回采样？

首先对于一个样本，其每次被采样到的概率是 $\frac{1}{m}$ ,不被采样到的概率是 $1-\frac{1}{m}$ 。m次采样都没被抽到的概率是 ${(1-\frac{1}{m})}^m$ ，那么让我们看看样本个数对数据中无法采样到的样本的比例的影响：在这里插入图片描述
上图中横坐标采用了e为底的指数坐标( $e^2-e^{14}$ )，可以发现当x趋向无穷时，无法采样到的样本的比例为 $lim_{x \rightarrow \infty}{(1-\frac{1}{m})^m}=\frac{1}{e}$ ，这些数据被称为Out of Bag(OOB)。Breiman在随机森林的论文中证明了OOB误差估计是一种可以取代测试集的误差估计方法，即OOB误差是测试数据集误差的无偏估计，因此可以用来检测模型的泛化能力。