机器学习
文章平均质量分 84
OrangeCat橘猫
坚持不懈才能无懈可击!
展开
-
Boosting方法的基本思路
Boosting方法的基本思路前言Boosting方法的基本思路Adaboost算法案例前言在前面的学习中,我们探讨了一系列简单而实用的回归和分类模型,同时也探讨了如何使用集成学习家族中的Bagging思想去优化最终的模型。Bagging思想的实质是:通过Bootstrap 的方式对全样本数据集进行抽样得到抽样子集,对不同的子集使用同一种基本模型进行拟合,然后投票得出最终的预测。我们也从前面的探讨知道:Bagging主要通过降低方差的方式减少预测误差。那么,本章介绍的Boosting是与Baggin.转载 2021-04-21 00:17:22 · 1046 阅读 · 0 评论 -
Bagging原理分析
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档bagging原理分析bagging的思路bagging的原理分析bagging的案例分析(基于sklearn,介绍随机森林的相关理论以及实例)bagging的思路与投票法不同的是,Bagging不仅仅集成模型最后的预测结果,同时采用一定策略来影响基模型训练,保证基模型可以服从一定的假设。在上一章中我们提到,希望各个模型之间具有较大的差异性,而在实际操作中的模型却往往是同质的,因此一个简单的思路是通过不同的采样增加模型的差异性。ba转载 2021-04-18 00:15:15 · 537 阅读 · 0 评论 -
集成学习
集成学习投票法的思路投票法的原理分析投票法的案例分析bagging的思路bagging的原理分析bagging的案例分析投票法的思路投票法是集成学习中常用的技巧,可以帮助我们提高模型的泛化能力,减少模型的错误率。举个例子,在航空航天领域,每个零件发出的电信号都对航空器的成功发射起到重要作用。如果我们有一个二进制形式的信号:11101100100111001011011011011在传输过程中第二位发生了翻转10101100100111001011011011011这导致的结果可能是致命的。一.转载 2021-04-14 21:56:50 · 98 阅读 · 0 评论 -
模型调参方法
模型参数调参网格搜索GridSearchCV()随机网格搜索RandomizedSearchCV()类别为二分类时实例 :XGBoost调参网格搜索GridSearchCV()from sklearn.model_selection import GridSearchCVfrom sklearn.svm import SVCimport timestart_time = time.time()pipe_svc = make_pipeline(StandardScaler(),SVC(rando转载 2021-03-29 21:43:17 · 1137 阅读 · 0 评论 -
使用sklearn构建完整的分类项目
使用sklearn构建完整的分类项目量模型性能的指标逻辑回归决策树支持向量机SVM量模型性能的指标度量分类模型的指标和回归的指标有很大的差异,首先是因为分类问题本身的因变量是离散变量,因此像定义回归的指标那样,单单衡量预测值和因变量的相似度可能行不通。其次,在分类任务中,我们对于每个类别犯错的代价不尽相同,例如:我们将癌症患者错误预测为无癌症和无癌症患者错误预测为癌症患者,在医院和个人的代价都是不同的,前者会使得患者无法得到及时的救治而耽搁了最佳治疗时间甚至付出生命的代价,而后者只需要在后续的治疗过程中转载 2021-03-28 00:14:01 · 225 阅读 · 0 评论 -
对模型超参数进行调优
对模型超参数进行调优一、参数与超参数二、网格搜索GridSearchCV三、随机搜索 RandomizedSearchCV一、参数与超参数什么是模型参数?模型参数是模型内部的配置变量,其值可以根据数据进行估计。它们的值定义了可使用的模型模型在进行预测时需要它们。他们是从数据估计或获悉的。它们通常不由编程者手动设置。他们通常被保存为学习模型的一部分。参数是机器学习算法的关键。它们通常由过去的训练数据中总结得出。什么是模型超参数?模型超参数是模型外部的配置,其值无法从数据中估计。原创 2021-03-24 22:02:09 · 951 阅读 · 0 评论 -
XGBoost的参数介绍及调参
XGBoost的参数介绍及调参XGBoost参数解释一、通用参数二、Booster参数二、学习目标函数三、XGBoost调参XGBoost参数解释XGBoost的参数分为三大类:通用参数:根据需求宏观调控。Booster参数:booster参数一般可以调控模型的效果和计算代价。我们所说的调参,很这是大程度上都是在调整booster参数。学习目标参数:控制训练目标的表现。我们对于问题的划分主要体现在学习目标参数上。比如我们要做分类还是回归,做二分类还是多分类,这都是目标参数所提供的。一、通用参原创 2021-03-23 11:34:27 · 3270 阅读 · 2 评论 -
模型优化基础
优化基础模型训练均方误差与测试均方误差偏差-方差的权衡特征选择压缩估计(正则化)降维在刚刚的回归问题的基本算法中,我们使用数据集去估计模型的参数,如线性回归模型中的参数w,那么这个数据集我们称为训练数据集,简称训练集。我们在回归问题中使用训练集估计模型的参数的原则一般都是使得我们的损失函数在训练集达到最小值,其实在实际问题中我们是可以让损失函数在训练集最小化为0,如:在线性回归中,我加入非常多的高次项,使得我们模型在训练集的每一个数据点都恰好位于曲线上,那这时候模型在训练集的损失值也就是误差为0。原创 2021-03-22 21:49:39 · 547 阅读 · 3 评论 -
线性回归算法基础
线性回归算法基础一、pandas是什么?一、回归树二、支持向量机回归(SVR)支持向量回归SVR一、pandas是什么?示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。一、回归树基于树的回归方法主要是依据分层和分割的方式将特征空间划分为一系列简单的区域。对某个给定的待预测的自变量,用他所属区域中训练集的平均数或者众数对其进行预测。由于划分特征空间的分裂规则可以用树的形式进行概括,因此这类方法称为决策树方法。决策树由结点(node)和有向边(diredcted原创 2021-03-18 22:33:16 · 355 阅读 · 0 评论 -
2021-03-16
心跳信号分类心跳信号分类一、了解赛题二、数据概况三、预测指标心跳信号分类一、了解赛题比赛要求参赛选手根据给定的数据集,建立模型,预测不同的心跳信号。赛题以预测心电图心跳信号类别为任务,数据集报名后可见并可下载,该该数据来自某平台心电图数据记录,总数据量超过20万,主要为1列心跳信号序列数据,其中每个样本的信号序列采样频次一致,长度相等。为了保证比赛的公平性,将会从中抽取10万条作为训练集,2万条作为测试集A,2万条作为测试集B,同时会对心跳信号类别(label)信息进行脱敏。通过这道赛题来引导大家走原创 2021-03-16 20:37:23 · 228 阅读 · 0 评论 -
2021-03-15
机器学习导论一、导论二、回归问题三、分类问题四、无监督学习一、导论什么是机器学习?机器学习的一个重要的目标就是利用数学模型来理解数据,发现数据中的规律,用作数据的分析和预测。数据通常由一组向量组成,这组向量中的每个向量都是一个样本,我们用xi来表示一个样本,其中i=1,2,3,…,N,共N个样本,每个样本xi=(xi1,xi2,…,xip,yi)共p+1个维度,前p个维度的每个维度我们称为一个特征,最后一个维度yi我们称为因变量(响应变量)。特征用来描述影响因变量的因素,如:我们要探寻身高是否会影响.原创 2021-03-15 23:43:36 · 319 阅读 · 0 评论