StatQuest系列之Random Forests

以下内容来自b站的StatQuest视频,感兴趣的可以直接去看原视频,讲的很好,复杂问题简单化,大大的推!
下面将从一个简单的例子说明RandomForest机制

Step 1、构建自举数据集,bootstrapped dataset

从原始数据集的M个样本中,随机选择N个样本,N < M,并且N个样本中可以重复,也就是有放回的从M个样本中随机选取N个样本,完成一次这样的取样,就得到了一个bootstrapped 数据集。
下面的例子中,从4个样本的数据集随机选择4个可重复的样本。
在这里插入图片描述

Step 2、使用bootstrapped dataset创建决策树

我们使用step1 获得的bootstrapped dataset来创建决策树,但是我们不使用数据集全部的特征维数R(该例子中,数据集的特征维数,也叫变量个数为4),而是随机选择r个特征,r < R。
在该例子中,随机选择两个特征,即Good Blood Circulation和Block Arteries,假设Good Blood Circulation 样本区分能力比较强,因此作为该决策树的root,那么其左叶子节点将在剩下的3个特征中随机选择2两个,我们按照决策树的方式完成该tree的建立,只是每一步都在剩下的特征中随机选择特征。
在这里插入图片描述
每个决策树的建立都是基于随机样本,决策树的每个节点都是基于随机特征,这两个随机可以生成很多不同的决策树,这些决策树组成了灵活的,功能强大的随机森林。
在这里插入图片描述

Step3、随机森林如何使用

由上面我们知道,随机森林包含了很多不同的决策树,在分类时,将待分类样本扔入算法中,每个决策树给出自己的结果,统计所有决策树的结果,最后投票给出最终分类结果。

在这里插入图片描述

Random Forests是一种集成学习方法,通过组合多个决策树模型来提高预测效果。它包含了两种集成方法:平均法和提升法。平均法也被称为"袋装法",每个算法独立训练得到各自的模型,然后通过投票选择最好的模型。而提升法是针对前一个模型进行加权叠加,从第二个模型开始训练。随机森林是一种采用平均法的集成方法,它通过组合不同的决策树来减少方差,并在一定程度上增加偏差。这种注入随机性的方法可以降低单个决策树的过度拟合,并通过取预测的平均值来抵消一些错误。随机森林在实践中通常能够产生高准确度的分类器,并且可以处理大量的输入变量。它还可以评估变量的重要性,并且在内部对于一般化后的误差产生不偏差的估计。此外,随机森林还具备其他优点,比如可以估计遗失的数据、处理不平衡的分类数据集、计算亲近度等。更多关于随机森林的例子可以参考sklearn官网的文档。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [随机森林 (Random Forests) 简单介绍与应用](https://blog.csdn.net/smileyan9/article/details/104545385)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值