集成学习
文章平均质量分 87
从基础模型的推导以及 sklearn应用过渡到使用集成学习的技术去优化我们的基础模型,使得我们的模型能更好地解决机器学习问题。
黄元帅
努力做好一件事
展开
-
集成学习案例二之蒸汽量预测
一、案例资料1.背景介绍火力发电的基本原理是:燃料在燃烧时加热水生成蒸汽,蒸汽压力推动汽轮机旋转,然后汽轮机带动发电机旋转,产生电能。在这一系列的能量转化中,影响发电效率的核心是锅炉的燃烧效率,即燃料燃烧加热水产生高温高压蒸汽。锅炉的燃烧效率的影响因素很多,包括锅炉的可调参数,如燃烧给量,一二次风,引风,返料风,给水水量;以及锅炉的工况,比如锅炉床温、床压,炉膛温度、压力,过热器的温度等。我们如何使用以上的信息,根据锅炉的工况,预测产生的蒸汽量,来为我国的工业届的产量预测贡献自己的一份力量呢?所以,该原创 2021-05-24 00:19:58 · 465 阅读 · 0 评论 -
集成学习案例一之幸福感预测
一、案例资料1.背景介绍幸福感是一个古老而深刻的话题,是人类世代追求的方向。与幸福感相关的因素成千上万、因人而异,大如国计民生,小如路边烤红薯,都会对幸福感产生影响。这些错综复杂的因素中,我们能找到其中的共性,一窥幸福感的要义吗?另外,在社会科学领域,幸福感的研究占有重要的位置。这个涉及了哲学、心理学、社会学、经济学等多方学科的话题复杂而有趣;同时与大家生活息息相关,每个人对幸福感都有自己的衡量标准。如果能发现影响幸福感的共性,生活中是不是将多一些乐趣;如果能找到影响幸福感的政策因素,便能优化资源配置原创 2021-05-19 01:49:55 · 344 阅读 · 0 评论 -
集成学习之Stacking
一、Stacking思想和主要步骤Stacking可以理解成升级版的Blending,关键在于它使用了“Cross-validation”对训练集进行处理。首先我们会得到两组数据:训练集和测试集。将训练集分成5份:train1,train2,train3,train4,train5。选定基模型。这里假定我们选择了xgboost, lightgbm 和 randomforest 这三种作为基模型。比如xgboost模型部分:依次用train1,train2,train3,train4,train原创 2021-05-14 00:48:19 · 1942 阅读 · 2 评论 -
集成学习之Blending
一、Blending思想和主要步骤简单来说,就是“它山之石可以攻玉”。将数据划分为训练集和测试集,其中训练集需要再次划分为训练集(train_set)和验证集(val_set);创建第一层的多个模型,这些模型可以使同质的也可以是异质的;使用train_set和y_train训练步骤2中的多个模型,然后用训练好的模型预测val_set和test_set得到val_predict, test_predict;创建第二层的模型,使用val_predict和y_val作为训练集训练第二层的模型;使用第原创 2021-05-12 00:39:48 · 1173 阅读 · 0 评论 -
XGBoost算法分析与案例调参实例
一、XgBoost算法1.XgBoost简介xgboost的核心算法思想:不断地添加树,不断地进行特征分裂来生长一棵树,每次添加一个树,其实是学习一个新函数,去拟合上次预测的残差;当我们训练完成得到k棵树,我们要预测一个样本的分数,其实就是根据这个样本的特征,在每棵树中会落到对应的一个叶子节点,每个叶子节点就对应一个分数;最后只需要将每棵树对应的分数加起来就是该样本的预测值。xgboost的优势:优化的分布式梯度增强库,旨在实现高效,灵活和便携。2.XgBoost定义事实上,如果不考虑原创 2021-04-27 00:34:45 · 1235 阅读 · 3 评论 -
前向分步算法与梯度提升决策树
一、前向分步算法介绍先介绍前向分布算法(forward stagewise additive modeling)考虑加法模型(additive model)f(x)=∑m=1Mβmb(x;γm)f(x) = \sum_{m=1}^{M}\beta _{m}b(x;\gamma_{m})f(x)=m=1∑Mβmb(x;γm)b(x;γm)b(x;\gamma_{m})b(x;γm)为基函数γm\gamma_{m}γm为基函数的参数βm\beta _{m}βm为基函数的系数在给定训原创 2021-04-24 00:59:11 · 386 阅读 · 0 评论 -
Boosting的思路与Adaboost算法
一、Boosting方法的基本思路Boosting方法是使用同一组数据集进行反复学习,得到一系列简单模型,然后组合这些模型构成一个预测性能十分强大的机器学习模型,Boosting的特点:boosting的目的是减小bias;对权重进行训练;弱组强Bootsing意为“增强、提升”,首先引入概念:在概率近似正确学习的框架中,弱可学习(weakly learnable):存在一个多项式的学习算法能够学习它,学习的正确率仅比随机猜测略好,那么就称这个概念是弱科学系的;强可学习(strong原创 2021-04-21 00:54:01 · 385 阅读 · 1 评论 -
Bagging的原理和案例分析
前言由上节可知,欲得到泛化性能强的集成,继承中的个体学习器应尽可能相互独立。给定一个训练集,一种可能的做法是对训练样本进行采样,产生出若干个不同的子集,再从每个数据子集中训练处一个基学习器。这样,由于训练数据不同,我们获得的基学习器可望具有比较大的差异。然而,为获得好的集成,我们还希望个体学习器不能太差,则若每个子集采用的数据集完全不同,则需要每个基学习器只用到了一小部分训练数据,这无法保证产生出比较好的基学习器。为了解决这个问题,考虑使用相互有交叠的采样子集。Bagging原理Bagging的原创 2021-04-18 00:53:33 · 1037 阅读 · 1 评论 -
投票法的原理和案例分析
前言原创 2021-04-14 23:39:25 · 2146 阅读 · 1 评论 -
掌握分类模型的评估及超参数调优
前言本章学习分类模型的性能评估及对其模型的超参数进行调优。一、超参数调优依然使用上文提到的Iris数据集,这里不再展开,只列出使用代码:import numpy as npimport pandas as pdfrom sklearn import datasetsiris = datasets.load_iris()X = iris.datay = iris.targetfeatures = iris.feature_namesiris_data = pd.DataFrame(X,c原创 2021-03-30 01:12:04 · 526 阅读 · 8 评论 -
基本的分类模型
前言书接上文,一个完整的机器学习分类项目分为以下步骤:收集数据集并选择合适的特征。选择度量模型性能的指标。选择具体的模型并进行训练以优化模型。评估模型的性能并调参。让我们通过这几个步骤了解一下基本的分类模型。一、收集数据集并选择合适的特征鸢(yuān)尾花Iris Data Set(鸢尾属植物数据集)是历史比较悠久的数据集,它首次出现在著名的英国统计学家和生物学家Ronald Fisher 1936年的论文《The use of multiple measurements in tax原创 2021-03-28 01:12:27 · 3713 阅读 · 2 评论 -
掌握回归模型的评估及超参数调优
一、参数与超参数参数超参数预测时使用用于辅助估计参数从数据中优化而来启发式设置,无法从数据中估计一般不由编程者手动设置(相对可变)通常人工指定(相对不可变)模型内部的一部分模型外部的配置二、网格搜索先介绍一下管道的作用和用法:简化构建变换和模型链的过程,Scikit-Learn提供了pipeline类,可以将多个处理步骤合并为单个Scikit-Learn估计器下面这两种管道构建的方式是等价的:from sklearn.pipeline imp原创 2021-03-24 23:58:12 · 2497 阅读 · 0 评论 -
偏差与方差理论
前言本次学习内容为优化基础模型。在线性回归中,我们总可以找到一条线来连接所有的测试集,如下图:但往往通过上面这种方式得到的曲线不能很好地反馈在测试集上,原因是产生过拟合等等。接下来让我们举例说明。一、训练均方误差与测试均方误差均方误差(mean-square error, MSE)是反映估计量与被估计量之间差异程度的一种度量:MSE=1N∑i=1N(yi−f^(xi))2MSE = \frac{1}{N}\sum_{i=1}^{N}(y_{i}-\hat{f}(x_{i}))^2 MS原创 2021-03-23 01:19:11 · 1245 阅读 · 6 评论 -
基本的回归模型
一、收集数据集并选择合适的特征波士顿房价数据集包含美国人口普查局收集的美国马萨诸塞州波士顿住房价格的有关信息, 数据集很小,只有506个案例。查看数据集:v_housing = datasets.load_boston() X = v_housing.datay = v_housing.targetfeatures = v_housing.feature_namesboston_data = pd.DataFrame(X,columns=features)boston_data["Price原创 2021-03-19 00:47:23 · 5231 阅读 · 1 评论 -
机器学习的三大主要任务
一、机器学习简介1.机器学习发展历程简单用思维导图的形式梳理一下机器学习的发展历程:在过去二十年中,人类收集 、存储、传输、处理数据的能力取得了飞速提升,人类社会的各个角落都积累了大量数据,亟需能有效地对数据进行分析利用的机器算法,而机器学习顺应了大时代的这个需求,因此该学科领域很自然地取得巨大发展、受到广泛关注。2.机器学习任务分类机器学习大体可分为如下几类:重点讲解“监督”的含义。以监督学习(supervised learning)为例,监督学习的任务是尝试学习一个数学模型,使模型能够对原创 2021-03-14 23:53:15 · 4775 阅读 · 6 评论