ML自学笔记5

本文深入探讨集成算法,特别是随机森林的原理。随机森林通过数据和特征的随机采样构建多棵决策树,以平均预测结果提高模型稳定性。同时,介绍了特征重要性的评估方法和模型优化策略,如AdaBoost的提升机制,强调了模型并非越多越好,而应关注准确率的平衡。此外,还提及了堆叠模型的概念,利用多种模型的预测结果进行二次学习,以提升整体预测性能。
摘要由CSDN通过智能技术生成

集成算法与随机森林

集成算法

集成算法一般就用树模型做的。
Bagging就是训练多个树模型,每个树模型预测一个结果,对所有树模型的结果进行求和后求均值,一个典型的例子就是随机森林,稍后讲到。
Boosting(提升算法),是每次加入一棵树,最后并不求均值
在这里插入图片描述

随机森林

简介
  1. 随机:数据随机采样,比如建立每一棵树随机选择80%的样本;特征随机采样:每个树随机选择80%的样本特征(随即比列可以指定);
  2. 森林:多个树,对每个树结果求和后求均值。
    在这里插入图片描述
随机森林优点和

在这里插入图片描述
给出Negev特征重要可以通过下图过程判断。先求出原始特征建模的错误率,将想要判断的特征的特征值进行修改(打乱或者改值)然后其他特征不变再建模计算错误率;两次结果近似说明此特征不重要,第二次结果远大于第一次结果说明此特征很重要。也可以通过特征在树的位置判断重要性,越靠近根节点越重要(是直接通过算法得出的)。
在这里插入图片描述
树模型也不是越多越好,达到一定数量后准确率差不多上下浮动了。
在这里插入图片描述

提升算法(Boosting)概述
算法简介

假如第一个树预测950(标签为1000),那么B就提升A的,B预测的就不是1000了,是做弥补A没做好的,B的目标就是1000-950=50,假设B预测了30,轮到C时,C树把前面当成整体,预测结果希望得到1000-950-30=20,假设C预测18,D也是,预测标签为2。
在这里插入图片描述

提升算法公式

前面部分是之前的树的预测结果,后面部分是当前这一个树模型,之前结果Fm-1(xi)加上当前树的结果h(xi)与原来结果yi比较,如果改进了就加上,如果没改进就不加。保证了加入一棵树,一定会比原来强。
在这里插入图片描述

模型代表

在这里插入图片描述

  1. AdaBoost:如果第一次划分是图一结果,有一个三角形划分错了,那么下一轮就会把这个三角形的权重加大在这里插入图片描述
  2. Xgboost算法就是之前提到的ABCD树如何提升的。
堆叠模型(stacking)
模型概述

使用多个分类器,比如LR(逻辑回归),DT(决策树),RF(随机森林),进行分别预测结果,然后将结果作为输入再用一种模型进行运算。
在这里插入图片描述

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值