个人总结：从决策树到随机森林

最新推荐文章于 2022-12-11 14:15:34 发布

yyhhlancelot

最新推荐文章于 2022-12-11 14:15:34 发布

阅读量1k

点赞数 3

分类专栏：机器学习文章标签：随机森林决策树 Bagging 集成学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yyhhlancelot/article/details/90512551

版权

本文从决策树出发，深入探讨了随机森林的原理，包括Bagging、特征重要性、模型调参及其推广如Extra Trees和Totally Random Trees Embedding。随机森林因训练并行化、高维度特征处理能力、模型泛化能力和特征重要性评估等优点而备受青睐，但也存在过拟合和某些特征影响较大的问题。

摘要由CSDN通过智能技术生成

关于决策树的一些可能需要了解的知识点，在个人总结：决策树中有所涉猎。

谈到随机森林，就需要了解bagging，而谈到bagging，就需要了解集成学习。

集成学习：构建并租个多个学习器来完成任务。获得比单一学习器更优越的性能。

两种选择：

同质：比如都是决策树个体学习器，都是神经网络个体学习器。

同质也可分为两类：

个体学习器之间存在强依赖关系，一系列个体学习器串行生成，代表算法boosting系列
不存在强依赖关系，可以并行生成，代表算法是bagging和Random Forest

异质：采用支持向量机个体学习器，逻辑回归个体学习器和朴素贝叶斯个体学习器，再通过某种结合策略来确定最终的分类强学习器。

从决策树到随机森林

Bagging：

首先来谈谈Bagging：Bagging就是对训练集进行采集，生成多个子训练集，再从每个子训练集训练一个基学习器，在预测阶段将各个基学习器进行结合。

而随机采样（bootstrap，“随机”体现点一）就是从训练集里采集固定个数的样本，但是每采集一个样本后，都将样本放回。也就是说，之前采集到的样本在放回后有可能被继续采集到。比如说，对含有m个样本的训练集做m次随机采样，在每次采样过后都将样本放回训练集。这样最后生成的采样集合中，初始样本集中某些样本可能出现多次，某些可能从未出现。

如何计算不同的样本的数量的期望呢？也就是说假设从N个样本中采样K个样本，求不同样本数量的期望，求E(K)。

首先，显然有E(1) = 1，因为一个样本采样出来肯定是独一无二的。其次，设从N个样本中采样K-1个样本不同数量的样本期望为E(K-1)，则第k个样本是未曾抽到的样本的概率为

最低0.47元/天解锁文章

关注

3
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
个人总结：从决策树到随机森林

关于决策树的一些可能需要了解的知识点，在个人总结：决策树中有所涉猎。谈到随机森林，就需要了解bagging，而谈到bagging，就需要了解集成学习。集成学习：构建并租个多个学习器来完成任务。获得比单一学习器更优越的性能。两种选择：同质：比如都是决策树个体学习器，都是神经网络个体学习器。同质也可分为两类：个体学习器之间存在强依赖关系，一系列个体学习器串行生成，代表算法...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。