datawahle 集成学习
文章平均质量分 93
尽力而为还不够
这个作者很懒,什么都没留下…
展开
-
Blending和Stacking
任务一:Blending算法分析与案 例调参实例1 导论2 Blending集成学习算法3 作业4 Stacking集成学习算法5 ROC曲线 decision_function导论Stacking,这个集成方法在比赛中被称为“懒人”算法,因为它不需要花费过多时间的调参就可以得到一个效果不错的算法,同时,这种算法也比前两种算法容易理解的多,因为这种集成学习的方式不需要理解太多的理论,只需.原创 2021-05-12 00:31:56 · 1011 阅读 · 0 评论 -
集成学习之GBDT
集成学习 之GBDT1 前向分布算法2 梯度提升决策树(GBDT)前向分布算法回看Adaboost的算法内容,我们需要通过计算M个基本分类器,每个分类器的错误率、样本权重以及模型权重。我们可以认为:Adaboost每次学习单一分类器以及单一分类器的参数(权重)。接下来,我们抽象出Adaboost算法的整体框架逻辑,构建集成学习的一个非常重要的框架----前向分步算法,有了这个框架,我们不仅可以解决分类问题,也可以解决回归问题。(1) 加法模型:在Adab转载 2021-04-23 20:25:53 · 108 阅读 · 0 评论 -
Datawhale集成学习:Boosting的思路与Adaboost算法
Datawhale集成学习:Boosting的思路与Adaboost算法1 导论2 Boosting方法的基本思路3 Adaboost算法导论在前面的学习中,我们探讨了一系列简单而实用的回归和分类模型,同时也探讨了如何使用集成学习家族中的Bagging思想去优化最终的模型。Bagging思想的实质是:通过Bootstrap 的方式对全样本数据集进行抽样得到抽样子集,对不同的子集使用同一种基本模型进行拟合,然后投票得出最终的预测。我们转载 2021-04-21 01:39:25 · 141 阅读 · 0 评论 -
集成学习Task8--Bagging的原理和案例分析
集成学习Task8--Bagging的原理和案例分析1 bagging的原理分析1.1 bootstrap的概念1.2 Bagging的基本流程2 随机森林2.1 随机森林的概述2.2 算法流程2.3 袋外误差3 bagging的案例分析(基于sklearn,介绍随机森林的相关理论以及实例)根据基分类器的生成方式,集成学习有两种范原创 2021-04-18 00:40:34 · 431 阅读 · 0 评论 -
集成学习中 ——投票法
投票法的原理如上图所示,在同一训练集上,训练得到多个分类或回归模型,然后通过一个投票器,通过某种加权方式,输出得票率最高的结果。#集成模型好于单个分类器的原因假设:n个基分类器的出错率都是ϵ ,且相互独立,则n个基分类器的结果中,出现k个错误的数量服从二项分布,对集成模型(简单多数投票)来说,n个结果中,有K个错误的概率是:当K>n/2时,集成模型输出错误结果假设ϵ = 0.25 , n = 11 ,n=11ϵ=0.25,n=11,输出错误结果的概率为:from scipy.spec转载 2021-04-14 23:35:28 · 1778 阅读 · 0 评论 -
集成学习——机器学习基础_分类问题
import numpy as npimport pandas as pdfrom sklearn import datasetsD:\anaconda3\lib\importlib\_bootstrap.py:219: RuntimeWarning: numpy.ufunc size changed, may indicate binary incompatibility. Expected 192 from C header, got 216 from PyObject return f(转载 2021-03-27 20:01:29 · 237 阅读 · 0 评论 -
集成学习__机器学习基础之回归
1.导论机器学习任务分为有监督学习和无监督学习。其中有监督学习是给定某些特征去估计变量,因变量存在。无监督学习是给定某些delattr征但不给定因变量根据因变量的是否连续,有监督学习又分为回归和分类:回归:因变量是连续型变量,如:房价,体重等。分类:因变量是离散型变量,如:是否患癌症,西瓜是好瓜还是坏瓜等。为了更好地叙述后面的内容,我们对数据的形式作出如下约定:第i个样本:xi=(xi1,xi2,...,xip,yi)T,i=1,2,...,Nx_i=(x_{i1},x_{i2},...,x原创 2021-03-18 23:28:05 · 329 阅读 · 0 评论 -
集成学习__机器学习基础_1
1.导论机器学习任务分为有监督学习和无监督学习。其中有监督学习是给定某些特征去估计变量,因变量存在。无监督学习是给定某些delattr征但不给定因变量根据因变量的是否连续,有监督学习又分为回归和分类:回归:因变量是连续型变量,如:房价,体重等。分类:因变量是离散型变量,如:是否患癌症,西瓜是好瓜还是坏瓜等。为了更好地叙述后面的内容,我们对数据的形式作出如下约定:第i个样本:xi=(xi1,xi2,...,xip,yi)T,i=1,2,...,Nx_i=(x_{i1},x_{i2},...,x转载 2021-03-17 18:40:33 · 122 阅读 · 0 评论