集成学习
文章平均质量分 78
小五的眼里有星星
这个作者很懒,什么都没留下…
展开
-
集成学习task11 XGBoost算法分析与案例调参实例
XGBoost算法XGBoost成功的最重要因素就是它在任何场景下的可扩展性。XGBoost系统在单台机器上的运行速度比现有流行的解决方案快10倍以上,并可在分布式或内存限制设置中扩展到数十亿个示例。XGBoost的可扩展性是由于在它的系统实现中的一些创新,包括:为处理稀疏数据使用了一个新颖的树学习算法;理论上合理的加权分位数草图过程,使得能够在近似树学习中处理实例权重;平行和分布式计算使得学习更快,从而能够更快的进行模型探索;最重要的是XGBoost使用核外计算并且能够让数据科学家在台式机上处.原创 2021-04-27 00:55:28 · 498 阅读 · 0 评论 -
集成学习 task10 前向分步算法与梯度提升决策树
前向分步算法回看Adaboost的算法内容,我们需要通过计算M个基本分类器,每个分类器的错误率、样本权重以及模型权重。我们可以认为:Adaboost每次学习单一分类器以及单一分类器的参数(权重)。接下来,我们抽象出Adaboost算法的整体框架逻辑,构建集成学习的一个非常重要的框架----前向分步算法,有了这个框架,我们不仅可以解决分类问题,也可以解决回归问题。(1) 加法模型:在Adaboost模型中,我们把每个基本分类器合成一个复杂分类器的方法是每个基本分类器的加权和,即: ????(????转载 2021-04-23 23:41:05 · 149 阅读 · 0 评论 -
集成学习task9
Boosting1. 导论Bagging思想的实质是:通过Bootstrap 的方式对全样本数据集进行抽样得到抽样子集,对不同的子集使用同一种基本模型进行拟合, 然后投票得出最终的预测。我们也从前面的探讨知道:Bagging主要通过降低方差的方式减少预测误差。那么,本章介绍的Boosting是与 Bagging截然不同的思想,Boosting方法是使用同一组数据集进行反复学习,得到一系列简单模型,然后组合这些模型构成一个预测性能十 分强大的机器学习模型。显然,Boosting思想提高最终的预测效果是通过转载 2021-04-21 00:56:06 · 255 阅读 · 0 评论 -
集成学习task8
Bagging算法 (英语:Bootstrap aggregating,引导聚集算法),又称装袋算法,是一种重要的集成学习方法。可用于分类、回归。工作机理通过多次多轮的sampling with replacement,构建多个分类器或回归,最终的预测结果为样本在这多个学习器上的结果平均值(投票少数服从多数)思路与投票法不同的是,Bagging不仅仅集成模型最后的预测结果,同时采用一定策略来影响基模型训练,保证基模型可以服从一定的假设。在上一章中我们提到,希望各个模型之间具有较大的差异性,而在实际原创 2021-04-17 23:06:17 · 78 阅读 · 0 评论 -
集成学习 Task 7
在所有集成学习方法中,最直观的是多数投票。因为其目的是输出基础学习者的预测中最受欢迎(或最受欢迎)的预测。多数投票是最简单的集成学习技术,它允许多个基本学习器的预测相结合。与选举的工作方式类似,该算法假定每个基础学习器都是投票者,每个类别都是竞争者。为了选出竞争者为获胜者,该算法会考虑投票**。将多种预测与投票结合起来的主要方法有两种:一种是硬投票,另一种是软投票。**投票法的思路投票法是集成学习中常用的技巧,可以帮助我们提高模型的泛化能力,减少模型的错误率。举个例子,在航空航天领域,每个零件发...转载 2021-04-15 00:22:14 · 114 阅读 · 0 评论 -
集成学习 task6
6.1.1 GridSearchCV• sklearn.svc() 的参数• C: float参数 默认值为1.0,惩罚系数• kernel: str参数 默认为‘rbf’• linear:线性核函数• poly:多项式核函数• rbf:径像核函数/高斯核• sigmod:sigmod核函数• degree: int型参数 默认为3,只对poly多项式生效• gamma: float参数 默认为auto,对rbf,poly,sigmod有效• coef0: float参数 默认为0.0,原创 2021-03-29 23:03:30 · 93 阅读 · 0 评论 -
集成学习 task5
CH2 2.2 123原创 2021-03-27 19:54:20 · 84 阅读 · 0 评论 -
集成学习 task4
(5) 对模型超参数进行调优(调参):岭回归简单回顾:之前的部分,似乎对模型的优化都是对模型算法本身的改进,比如:岭回归对线性回归的优化在于在线性回归的损失函数中加入L2正则化项从而牺牲无偏性降低方差。但是,大家是否想过这样的问题:在L2正则化中参数 ???? 应该选择多少?是0.01、0.1、还是1?到目前为止,我们只能凭经验或者瞎猜,能不能找到一种方法找到最优的参数 ???? ?事实上,找到最佳参数的问题本质上属于最优化的内容,因为从一个参数集合中找到最佳的值本身就是最优化的任务之一,我们脑海中原创 2021-03-24 15:35:02 · 152 阅读 · 0 评论 -
集成学习Task3
我们的模型不能预测任意情况!建立机器学习的目的并不是为了在已有的数据集,也就是训练集上效果表现非常优异,我们希望建立的机器学习模型在未知且情况复杂的测试数据上表现优异,我们称这样的未出现在训练集的未知数据集成为测试数据集,简称测试集。我们希望模型在测试集上表现优异!因为假如我们根据股票市场前六个月的数据拟合一个预测模型,我们的目的不是为了预测以前这六个月越准越好,而是预测明天乃至未来的股价变化。...原创 2021-03-22 23:57:23 · 103 阅读 · 0 评论 -
集成学习 task2
2. 使用sklearn构建完整的机器学习项目流程一般来说,一个完整的机器学习项目分为以下步骤:明确项目任务:回归/分类收集数据集并选择合适的特征。选择度量模型性能的指标。选择具体的模型并进行训练以优化模型。评估模型的性能并调参。2.1 使用sklearn构建完整的回归项目(1) 收集数据集并选择合适的特征:在数据集上我们使用我们比较熟悉的Boston房价数据集,原因是:**第一个,**我们通过这些简单的数据集快速让我们上手sklearn,以及掌握sklearn的相关操作。**第二个,转载 2021-03-19 00:03:53 · 109 阅读 · 0 评论 -
集成学习(上)task1
1.什么是机器学习?下面摘抄上学期机器学习slides里的几个定义,上学期的机器学习课学的东西又还给老师了,希望通过这次组队学习复习+学习~Arthur Samuel (1959): Machine learning is a “field of study that gives computers the ability to learn without being explicitly programmed”.Machine learning is the science of getting m原创 2021-03-15 23:52:23 · 211 阅读 · 2 评论