集成学习模型（一）——随机森林

最新推荐文章于 2024-03-08 16:35:14 发布

Storm*Rage

最新推荐文章于 2024-03-08 16:35:14 发布

阅读量2k

点赞数 2

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43886056/article/details/108697518

版权

随机森林是一种集成学习方法，由多个决策树组成，通过随机采样和特征选择增加决策树之间的差异，提高预测精度。文章详细介绍了随机森林的原理，包括决策树的生成（ID3、C4.5、CART）、随机森林的构造和剪枝，以及特征重要性的评价方法。还探讨了随机森林的优缺点，并通过实验展示了随机森林在分类任务中的应用和参数调优过程。

摘要由CSDN通过智能技术生成

随机森林

文章目录

随机森林

一、概述

随机森林是由很多决策树构成的，不同决策树之间没有关联。

当我们进行分类任务时，新的输入样本进入，就让森林中的每一棵决策树分别进行判断和分类，每个决策树会得到一个自己的分类结果，决策树的分类结果中哪一个分类最多，那么随机森林就会把这个结果当做最终的结果。

上世纪八十年代Breiman等人发明分类树的算法（Breiman et al. 1984），通过反复二分数据进行分类或回归，计算量大大降低。2001年Breiman把分类树组合成随机森林（Breiman 2001a），即在变量（列）的使用和数据（行）的使用上进行随机化，生成很多分类树，再汇总分类树的结果。随机森林在运算量没有显著提高的前提下提高了预测精度。随机森林对多元公线性不敏感，结果对缺失数据和非平衡的数据比较稳健，可以很好地预测多达几千个解释变量的作用（Breiman 2001b），被誉为当前最好的算法之一。

二、决策树

信息熵：熵是对不确定性的度量。在1948年，香农引入了信息熵，将其定义为离散随机事件出现的概率，一个系统越是有序，信息熵就越低，反之一个系统越是混乱，它的信息熵就越高。

对于有 $K$ 个类别的分类问题来说，假定样本集合 $D$ 中第 $k$ 类样本所占的比例为 $p_k（k=1,2,...,K）$ ，则样本集合 $D$ 的信息熵定义为：
$\operatorname{Ent}(D)=-\sum_{k=1}^{K} p_{k} \cdot \log_{2} p_{k}$

常用的决策树算法有ID3，C4.5，CART三种。3种算法的模型构建思想都十分类似，只是采用了不同的指标。决策树模型的构建过程大致如下：
在这里插入图片描述

2.1 ID3，C4.5决策树的生成

输入：训练集 $D$ ，特征集 $A$ ，阈值 $e p s$
输出：决策树 $T$

若 $D$ 中所有样本属于同一类 $C_k$ ，则 $T$ 为单节点树，将类 $C_k$ 作为该结点的类标记，返回 $T$
若 $A$ 为空集，即没有特征作为划分依据，则 $T$ 为单节点树，并将 $D$ 中实例数最大的类 $C_{max}$ 作为该结点的类标记，返回 $T$
否则，计算 $A$ 中各特征对 $D$ 的信息增益(ID3)/信息增益比(C4.5)，选择信息增益最大的特征 $A_g$
若 $A_g$ 的信息增益（比）小于阈值 $e p s$ ，则置 $T$ 为单节点树，并将 $D$ 中实例数最大的类 $C_k$ 作为该结点的类标记，返回 $T$
否则，依照特征 $A_g$ 将 $D$ 划分为若干非空子集 $D_i$ ，将 $D_i$ 中实例数最大的类作为标记，构建子节点，由结点及其子节点构成树 $T$ ，返回

最低0.47元/天解锁文章

关注

2
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。