ML自学笔记5

最新推荐文章于 2024-08-29 12:09:23 发布

十九岁的花季少女

最新推荐文章于 2024-08-29 12:09:23 发布

阅读量233

点赞数 1

分类专栏：机器学习文章标签：人工智能机器学习 python

本文链接：https://blog.csdn.net/xiaomi5410/article/details/125393715

版权

机器学习专栏收录该内容

27 篇文章 1 订阅

订阅专栏

本文深入探讨集成算法，特别是随机森林的原理。随机森林通过数据和特征的随机采样构建多棵决策树，以平均预测结果提高模型稳定性。同时，介绍了特征重要性的评估方法和模型优化策略，如AdaBoost的提升机制，强调了模型并非越多越好，而应关注准确率的平衡。此外，还提及了堆叠模型的概念，利用多种模型的预测结果进行二次学习，以提升整体预测性能。

摘要由CSDN通过智能技术生成

集成算法与随机森林

集成算法

集成算法一般就用树模型做的。
Bagging就是训练多个树模型，每个树模型预测一个结果，对所有树模型的结果进行求和后求均值，一个典型的例子就是随机森林，稍后讲到。
Boosting（提升算法），是每次加入一棵树，最后并不求均值
在这里插入图片描述

随机森林

简介

随机：数据随机采样，比如建立每一棵树随机选择80%的样本；特征随机采样：每个树随机选择80%的样本特征（随即比列可以指定）；
森林：多个树，对每个树结果求和后求均值。

随机森林优点和

在这里插入图片描述
给出Negev特征重要可以通过下图过程判断。先求出原始特征建模的错误率，将想要判断的特征的特征值进行修改（打乱或者改值）然后其他特征不变再建模计算错误率；两次结果近似说明此特征不重要，第二次结果远大于第一次结果说明此特征很重要。也可以通过特征在树的位置判断重要性，越靠近根节点越重要（是直接通过算法得出的）。
在这里插入图片描述
树模型也不是越多越好，达到一定数量后准确率差不多上下浮动了。