随机森林RF原理总结

本文详细介绍了随机森林RF的原理,包括其作为Bagging方法的特性,弱学习器决策树DT的基础知识,以及RF的构建过程。随机森林通过随机抽样和特征选择生成多棵决策树,利用多数投票或平均值决定最终输出。同时,文章还探讨了RF的特征重要性评估方法和调参策略,强调了n_estimators、max_features、max_depth等关键参数的影响,并总结了RF的优势和不足,如并行训练、高泛化能力及对缺失值的容忍度。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

集成学习原理中知道,集成学习分为两部分Bagging和Boosting。随机森林RF作为Bagging方法的典型例子,以其并行训练的优点在如今处理数据问题上广受欢迎。随机森林,顾名思义,是有多棵树组成的森林,故RF的弱学习器都是决策树。RF=Bagging+DT。下面介绍一下RF的相关知识。Bagging方法就不再介绍,可以回顾集成学习原理

1.决策树(DT)

在介绍随机森林前,简单的介绍一下其构成弱学习器决策树DT。决策树是比较经典的机器学习算法,可以用来处理分类问题和回归问题。同时也是集成学习中弱学习器经常选择的机器学习算法。如RF,GBDT。
决策树是一种树型结构,每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。决策树是一种基于if-then-else规则的有监督机器学习算法。
下图为决策树示意图,圆点——内部节点,方框——叶节点
在这里插入图片描述
决策树学习的算法通常是一个递归地选择最优特征,并根据该特征对训练数据进行分割,使得各个子数据集有一个最好的分类的过程。这一过程对应着对特征空间的划分,也对应着决策树的构建。
决策树算法有3种:
(1) ID3: 通过信息增益来选择特征,信息增益最大的优先选择。
(2)C4.5:通过信息增益比选择特征,减少信息增益容易选择特征值多的特征问题。
(3)CART:使用基尼系数Gini代替信息增益比。

2.随机森林(RF)

2.1RF原理介绍

随机森林(RF)其实就是多棵决策树。
通过对样本重新采样的方法得到不同的训练样本集,在这些新的训练样本集上分别训练学习器,最终合并每一个学习器的结果,作为最终的学习结果,其中,每个样本的权重是一样的。具体过程如下:
在这里插入图片描述
其中,在该方法中,b个学习器之

评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值