机器学习
文章平均质量分 66
吓得我泰勒都展开了
需要课程的可以到我的主页资源找找哈~
展开
-
GBDT--梯度提升树
梯度提升树(Gradient Boosting Decision Tree,GBDT)是提升法中的代表性算法,它即是当代强力的XGBoost、LGBM等算法的基石,也是工业界应用最多、在实际场景中表现最稳定的机器学习算法之一。在最初被提出来时,GBDT被写作梯度提升机器(Gradient Boosting Machine,GBM),它融合了Bagging与Boosting的思想、扬长避短,可以接受各类弱评估器作为输入,在后来弱评估器基本被定义为决策树后,才慢慢改名叫做梯度提升树。受Boosting算法首个发原创 2022-07-29 11:38:21 · 675 阅读 · 0 评论 -
特征筛选--方差分析-f线性相关
方差分析卡方检验更多的会考虑在衡量两个离散变量是否独立时使用,如果是连续变量和离散变量之间的独立性,更常见的做法是进行方差分析。方差分析也是一种假设检验,因此我们仍然会采用介绍假设检验的一般流程来介绍方差分析。首先第一步是提出假设,不像卡方检验的零假设那样直接明了、就是假设变量之间相互独立,方差分析的零假设会更加复杂一些,而理解方差分析的零假设也会需要一些统计学背景知识。这里我们先提出方差分析的零假设,然后再解释为何这样的假设能够帮助我们判断连续变量和离散变量之间是否独立。H0H1。...原创 2022-07-27 11:27:53 · 751 阅读 · 1 评论 -
特征筛选方法--卡方检验
卡方检验在一般情况下,卡方检验是针对于离散变量的独立性检验,卡方检验的零假设为两个离散变量相互独立。很明显,如果我们将其用于标签和特征的判别,就能借此判断某特征和标签是不是独立的,如果是,则说明特征对标签的预测毫无帮助。因此在很多时候,卡方检验都是非常重要的剔除无关特征的方法.Step1.提出假设。...原创 2022-07-26 18:32:50 · 2841 阅读 · 0 评论 -
贝叶斯HPO基本流程
这也是当然的,因为观测点之间函数的分布如何完全是未知的,并且该分布离观测点越远时,我们越不确定真正的函数值在哪里,因此人们猜测的函数值的范围非常巨大。在观测点周围,置信度总是很高的,远离观测点的地方,置信度总是很低,所以如果我们能够在置信度很低的地方补充一个实际的观测点,我们就可以很快将众人的猜测统一起来。同时,不同的人可能对函数的整体分布有不同的猜测,不同猜测下对应的最小值也是不同的。由于不同的人对函数的整体分布有不同的猜测,不同猜测下对应的最小值也是不同的,根据每个人猜测的函数结果,我们在。...原创 2022-07-26 13:51:12 · 1437 阅读 · 0 评论 -
超参数优化--贝叶斯方法
0,1)}需要注意的是,bayes_opt只支持填写参数空间的上界与下界,不支持填写步长等参数,且bayes_opt会将所有参数都当作连续型超参进行处理,因此bayes_opt会直接取出闭区间中任意浮点数作为备选参数。例如,取92.28作为n_estimators的值。这也是为什么在目标函数中,我们需要对整数型超参的取值都套上int函数。输入bayes_opt的参数空间天生会比其他贝叶斯优化库更大/更密,因此需要的迭代次数也更多。hp.quniform(“参数名称”,下界,上界,步长)以及。...原创 2022-07-26 13:34:41 · 4468 阅读 · 2 评论 -
超参数优化--随机网格法
在网格搜索时我们提到,伴随着数据和模型的复杂度提升,网格搜索所需要的时间急剧增加。以随机森林算法为例,如果使用过万的数据,搜索时间则会立刻上升好几个小时。因此,我们急需寻找到一种更加高效的超参数搜索方法。因此,sklearn中的网格搜索优化方法主要包括两类,其一是调整搜索空间,其二是调整每次训练的数据。其中,调整参数空间的具体方法,是放弃原本的搜索中必须使用的全域超参数空间,改为挑选出部分参数组合,构造超参数子空间,并只在子空间中进行搜索。...原创 2022-07-25 18:06:35 · 1371 阅读 · 0 评论 -
随机森林--
模型融合在最初的时候被称为“分类器结合”,这个领域主要关注强评估器,试图设计出强大的规则来融合强分类器的结果、以获取更好的融合结果。这个领域的手段主要包括了投票法Voting、堆叠法Stacking、混合法Blending等,且被融合的模型需要是强分类器。模型融合技巧是机器学习/深度学习竞赛中最为可靠的提分手段之一,常言道当你做了一切尝试都无效,试试模型融合。...原创 2022-07-25 14:30:29 · 2644 阅读 · 0 评论 -
决策树代码
决策树原创 2022-05-11 15:58:31 · 1436 阅读 · 0 评论 -
kMeAnS代码
Kmeans算法是一个无监督算法,他是根据一大堆数据自己训练出他自己是属于哪一类型的,本质上也是算距离我们先自己搞一个已经做好分类的kmeans数据集from sklearn.datasets import make_blobs #自己创建数据集 X, y = make_blobs(n_samples=500,n_features=2,centers=4,random_state=1) #有500样本,2个类别,4个中心点plt.scatter(X[:, 0], X[:, 1], marker=原创 2022-05-11 15:56:04 · 457 阅读 · 0 评论 -
KNN代码
knn介绍原创 2022-05-11 15:52:58 · 202 阅读 · 0 评论 -
Autogluon集成算法
随便写写原创 2022-05-11 15:38:16 · 408 阅读 · 1 评论 -
线性回归,KNN,Kmeans算法小练
线性回归from sklearn import datasets,linear_model #导入线性回归模型from sklearn.model_selection import train_test_split #用于数据集测试集的分割import numpy as npimport pandas as pdimport matplotlib.pyplot as plt#自己创建一个数据集data = np.array([[152,51],[156,53],[160,54]原创 2021-07-17 15:30:38 · 274 阅读 · 0 评论 -
吴恩达机器学习4--正则化(Regularization)
过拟合问题看下面回归的例子第一个模型是一个线性模型,欠拟合,不能很好地适应我们的训练集;第三个模型是一个四次方的模型,过于强调拟合原始数据,而丢失了算法的本质。而中间的模型似乎最合适在分类问题中:就以多项式理解,???? 的次数越高,拟合的越好,但相应的预测的能力就可能变差正则化线性回归正则化线性回归的代价函数为:正则化线性回归的梯度下降算法为:可以看出,正则化线性回归的梯度下降...原创 2020-01-19 12:12:49 · 202 阅读 · 0 评论 -
吴恩达机器学习3--逻辑回归(Logistic Regression)
分类问题在分类问题中,你要预测的变量 ???? 是离散的值,我们将学习一种叫做逻辑回归 (LogisticRegression) 的算法,这是目前最流行使用最广泛的一种学习算法。在分类问题中,我们尝试预测的是结果是否属于某一个类(例如正确或错误)。分类问题的例子有:判断一封电子邮件是否是垃圾邮件;判断一次金融交易是否是欺诈;判断肿瘤是恶性还是良性先从二元分类来讨论我们将因变量可能属于的两个类别...原创 2020-01-17 21:31:21 · 483 阅读 · 0 评论 -
吴恩达机器学习2-多变量线性回归(Linear Regression with Multiple Variables)
吴恩达机器学习2-多变量线性回归(Linear Regression with Multiple Variables)多维特征以房价模型为例,现在引入多个特征,例如房间数量,离主干道的距离等等构成一个含有多个变量的模型,模型中的特征为(????1, ????1, . . . , ????????)。???? 代表特征的数量????(????)代表第 ???? 个训练实例,是特征矩阵中的第????行,是一个向量(vector)。比方说,上图...原创 2020-01-14 21:55:57 · 318 阅读 · 0 评论 -
吴恩达机器学习笔记1---单变量线性回归(Linear Regression with One Variable)
吴恩达机器学习笔记1—单变量线性回归(Linear Regression with One Variable)模型表示首先我们引用一个房价预测的例子,由于是单变量模型,此处影响房价的变量只有房屋尺寸的大小这也是个监督学习,监督学习的意思是对与每个数据都给出了正确的答案,即告诉我们:根据我们的数据来说,房子实际的价格是多少,而且,更具体来说,这是一个回归问题。更进一步来说,在监督学习中我们有...原创 2020-01-14 16:37:43 · 262 阅读 · 0 评论