人工智能与机器学习
文章平均质量分 93
人工智能与机器学习
对许
这个作者很懒,什么都没留下…
展开
-
梯度提升决策树(GBDT)的训练过程
假设训练集有4个人(A、B、C、D),他们的年龄分别是14、16、24、26。C、D分别是应届毕业生和工作两年的员工。综上所述,GBDT需要将多棵树的预测结果累加,得到最终的预测结果,且每轮迭代都是在当前树的基础上,增加一棵新树去拟合前一个树预测值与真实值之间的残差。上图中,A、B的购物金额不超过1k,C、D的购物金额超过1k,因此被分为左右两个分支,每个分支使用平均年龄作为预测值。上图中,A、C的上网时间超过1h,B、D的上网时间不超过1h,因此被分为左右两个分支,每个分支使用平均残差作为预测值。原创 2024-06-21 15:09:51 · 597 阅读 · 0 评论 -
Scikit-Learn梯度提升决策树(GBDT)
梯度提升决策树(Gradient Boosting Decision Tree,GBDT)是一种迭代的决策树算法,它通过构造一组弱学习器(决策树),并把多颗决策树的结果累加起来作为最终的预测输出。在每一轮迭代中,GBDT都会训练一棵新的决策树,目标是减少上一轮模型的残差。Boosting的基本思路是将基分类器层层叠加,每一层在训练的时候,对前一层基分类器分错的样本,给予更高的权重。负梯度方向是梯度下降最快的方向。GBDT的核心点在于不断迭代,每一轮迭代都尝试修正上一轮模型的错误,逐渐提高模型的预测性能。原创 2024-06-20 16:16:25 · 1293 阅读 · 0 评论 -
Scikit-Learn支持向量机回归
SVR的目标是找到一个函数,使得大部分数据点都落在间隔内,并且使得落在间隔之外的数据点的预测误差最小化,这通常通过优化算法(如梯度下降)来实现。对于这样的问题,解决的方案是将样本从原始空间映射到一个更高维的特征空间,使得样本在这个特征空间内线性可分,然后再运用SVM求解。如果我们要处理的分类问题更加复杂,甚至不能像上面一样近似线性可分,这种情况下找到的超平面分错的程度太高,是不可接受的。SVM是一种二分类模型,它的基本模型是定义在特征空间上的间隔最大的线性分类器,他的学习策略就是间隔最大化。原创 2024-06-18 16:22:00 · 1251 阅读 · 0 评论 -
超参数优化(网格搜索简介)
1、网格搜索优化2、随机网格搜索。原创 2024-06-17 17:43:41 · 688 阅读 · 0 评论 -
模型评估指标(三)
准确率(Accuracy):适用于正负样本数量相差不大的情况精确率/查准率(Precision):注重准,适用于正负样本差异很大的情况,不能用于抽样情况下的效果评估召回率/查全率(Recall):注重全,适用于正负样本差异很大的情况,不受抽样影响F1分数:描述了精准率和召回率的关系,在准与全之间平衡ROC:对正负样本不平衡的数据集不敏感AUC:计算与排序有关,因此对排序敏感,对预测分数不敏感。原创 2024-06-06 15:32:00 · 826 阅读 · 0 评论 -
模型评估指标(二)
例如,发病率为0.1%的医疗场景下,如果只追求准确率,模型可以把所有人判定为没有病的正常人,准确率高达99.9%,但这个模型实际是不可用的。它是一个表格矩阵,习惯上,通常矩阵的行表示实际的类别标签,矩阵的列表示模型预测的类别标签。但是我们无法提前获取未知的样本,因此我们会基于已有的数据进行切分来完成模型训练和评估,借助于切分出的测试数据进行评估,可以很好地判定模型状态(过拟合/欠拟合),进而迭代优化。精确率(Precision)又称查准率,表示在模型预测为正例的样本中,真正为正例的样本所占的比例。原创 2024-06-05 11:20:59 · 751 阅读 · 0 评论 -
Scikit-Learn随机森林分类
在随机森林中,集成模型中的每棵树构建时的样本都是由训练集经过随机有放回抽样自助式采样法(Bootstrap Sampling)得来的另外,在构建树的过程中进行节点划分时,选择的划分点是基于所有特征中的随机子集的最佳划分点随机森林的随机性主要体现在两个方面:一是决策树训练样本的随机选取,二是决策树节点划分属性特征的随机选取这两个随机性的目的是降低森林估计器的方差。事实上,单个决策树通常表现出很高的方差,并且往往会过拟合。原创 2024-06-03 17:49:30 · 1386 阅读 · 0 评论 -
Pandas分箱/离散化cut()与qcut()的区别
例如,如果对年龄进行分箱,0-1岁是婴儿,1-12岁是孩子,12-18岁是青少年,18-60岁是成年人,60岁以上是老年人。默认情况下,它被设置为False,因此,当Pandas看到我们传递的列表时,它将把2008年排除在计算之外。时,我们告诉Pandas将数据列切成5个相等的量级,即0-20%,20-40%,40-60%,60-80%和80-100%桶/箱。可以看到,分箱的边缘是不等宽的,因为它要容纳每个桶1/3的值,因此它要自己计算每个箱子的宽度来实现这一目标。边缘的间距大小是相等的,每个。原创 2024-04-07 15:20:46 · 1998 阅读 · 0 评论 -
Scikit-Learn随机森林回归
随机森林是一种由决策树构成的(并行)集成算法,属于Bagging类型,随机森林通过组合多个弱分类器,最终结果通过投票或取均值,使得整体模型的结果具有较高的精确度和泛化性能,同时也有很好的稳定性,因此广泛应用在各种业务场景中。随机森林有如此优良的表现,主要归功于随机和森林。Bagging方法是在自助采样基础上构建的,上述的采样过程我们可以重复T次,采样出T个包含m个样本的采样集,然后基于每个采样集训练出一个基学习器,然后将这些基学习器进行结合。个体学习器代表的是单个学习器,集成学习代表的是多个学习器的结合。原创 2024-05-28 17:44:06 · 1303 阅读 · 0 评论 -
Sklearn模型保存与加载
在实际应用中,训练一个模型需要花费很多时间。为了方便使用,可以将训练好的模型导出到磁盘上,在使用的时候,直接加载使用即可。模型导出的过程称为对象序列化,而加载还原的过程称为反序列。(二进制协议)模块主要用于Python对象的序列化和反序列化,及以前的版本中,在最新的版本中,该函数已被弃用改为直接导入。是Sklearn自带的一个工具。可以同时处理文件对象和字符串文件名。要求将文件对象作为参数传递,而。,尤其是当数据量较大的时候。函数存在于Sklearn。提供了更简单的工作流程。原创 2024-05-24 17:57:16 · 498 阅读 · 0 评论 -
Sklearn文本特征提取
与英文文档不同,中文文档的词汇之间没有像英文那样的自然空格分割,因此,需要额外处理,要将中文文档转换为类似英文文档中自然空格分割的格式。通过对比,我们发现,在计算中文文档TF-IDF时,需要先对文档进行特别处理,将文档处理成类似英文的自然空格分割形式,以方便应用TF-IDF矢量化器。TfidfVectorizer将原始文本转化为TF-IDF特征矩阵,从而为后续的文本相似度计算奠定基础。同样,这些特征词汇中不包含“我”、“是”、“在”和“爱”,你能解释这是为什么吗?不知道你有没有发现,这些特征词汇中不包含。原创 2024-05-23 17:51:39 · 705 阅读 · 0 评论 -
深入理解贝叶斯分类(根据气象预测出行)
通过朴素贝叶斯公式,我们可以将无法直接求解的因转换为求解已知的三个量的果,将待求的量转化为其它可求的量,这就是贝叶斯公式所做的事情。由上述表格可知,数据的特征共有4个:天气、温度、湿度和刮风,类别共有2个:出行(是)、不出行(否),样本的抽样分布服从正态分布,频率近似于概率,所以,这里我们直接进行统计即可。根据上式,我们只需要分别计算出等式右边的概率,也就得到了左边的概率。,通过比较两者大小得出这个人是否会出行的结论。的概率,通过判断两个概率大小得出是否出行。,因此,这个人在气象是。表示出行的先验概率,原创 2024-05-21 17:44:39 · 705 阅读 · 0 评论 -
Scikit-Learn朴素贝叶斯
朴素贝叶斯把类似敲击声这样的特征概率化,构成一个西瓜的品质向量以及对应的好瓜/坏瓜标签,训练出一个标准的基于统计概率的好坏瓜模型,这些模型都是各个特征概率构成的。一般来说,纹理清晰的西瓜是好瓜的概率更大,假设是75%,如果把纹理清晰当作一种结果,然后去推测好瓜的概率,那么这个概率就被称为后验概率。朴素贝叶斯算法的核心思想是通过特征考察标签概率来预测分类,即对于给定的待分类样本,求解在此样本出现的条件下各个类别出现的概率,哪个最大,就认为此待分类样本属于哪个类别。先验概率是指事件发生前的预判概率。原创 2024-05-21 16:47:25 · 1128 阅读 · 1 评论 -
决策树剪枝
预剪枝:过拟合风险降低,欠拟合风险增加后剪枝:过拟合风险降低,欠拟合风险基本不变泛化性能:后剪枝通常优于预剪枝预剪枝:训练时间开销降低,测试时间开销降低后剪枝:训练时间开销增加,测试时间开销降低时间开销:后剪枝通常小于预剪枝。原创 2024-05-17 17:59:35 · 783 阅读 · 0 评论 -
决策树最优属性选择
对比不同属性,我们发现纹理属性的信息增益最大,因此,纹理属性被选为划分属性:清晰{1,2,3,4,5,6,8,10,15}、稍糊{7,9,13,14,17}、模糊{11,12,16}从上图可以看出根蒂、脐部、触感3个属性均取得了最大的信息增益,此时可任选其一作为划分属性。同理,对每个分支结点进行类似操作,即可得到最终的决策树。本文以西瓜数据集为例演示决策树使用信息增益选择最优划分属性的过程。原创 2024-05-16 17:38:59 · 303 阅读 · 0 评论 -
Scikit-Learn决策树
原因是,当特征的取值较多时,根据此特征划分更容易得到纯度更高的子集,因此划分之后的熵更低,由于划分前的熵是一定的,因此信息增益更大,因此信息增益比较偏向取值较多的特征。如果要同时调节多个模型参数,例如,模型有两个参数,第一个参数有3种取值可能,第二个参数有4种取值可能,则所有的可能性列举出来可以表示成3*4的网格,遍历的过程像是在网格(Grid)中搜索(Search),因此该方法被称为网格搜索。由图可见,在不加限制的情况下,一棵决策树会生长到所有的叶子都是纯净的或者或者没有更多的特征可用为止。原创 2024-05-10 15:20:34 · 312 阅读 · 0 评论 -
Scikit-Learn回归树
决策树,顾名思义,是一种树形结构。决策树使用层层推理来实现最终的分类。根节点:包含样本的全集内部节点:对应一个特征属性的测试叶节点:对应一种类别(决策的结果)这是一种基于If-Then规则的有监督学习算法,决策树的这些规则通过训练得到,而不是人工制定的决策树的目标是创建一个模型,通过学习从数据特性中推断出的简单决策规则来预测目标变量的值预测时,在树的内部节点处用某一属性值进行判断,根据判断结果决定进入哪个分支节点,直到到达叶节点处,得到分类结果。原创 2024-04-30 17:34:36 · 1564 阅读 · 0 评论 -
Scikit-Learn支持向量机分类
在机器学习中,支持向量机(Support Vector Machine,SVM)算法既可以用于回归问题(SVR),也可以用于分类问题(SVC)支持向量机是一种经典的监督学习算法,通常用于分类问题。SVM(分类)在机器学习知识结构中的位置如下:SVM的核心思想是将分类问题转化为寻找分类超平面的问题,并通过最大化分类边界点(支持向量)到分类平面的距离(间隔)来实现分类如图所示,左图展示了三种可能的线性分类器的决策边界,虚线所代表的模型表现非常糟糕,甚至都无法正确实现分类;原创 2024-04-19 17:52:27 · 1843 阅读 · 0 评论 -
泰坦尼克号幸存者预测
在上篇泰坦尼克号幸存者数据分析中,我们对泰坦尼克号的幸存者做了数据分析,通过性别、年龄、船舱等级等不同维度对幸存者进行了分类统计,回答了哪些人可能成为幸存者本文我们将对泰坦尼克号数据集应用特征工程、训练分类模型并对幸存者进行预测特征工程是机器学习工作流程中重要的组成部分,它是将原始数据转化成模型可理解的形式的过程。如何基于给定数据来发挥更大的数据价值就是特征工程要做的事情在2016年的一项调查中发现,数据科学家的工作中,有超过80%的时间都在获取、清洗和组织数据;构造机器学习流水线的时间不到20%。原创 2024-04-12 17:38:35 · 1226 阅读 · 0 评论 -
泰坦尼克号幸存者数据分析
这是一艘号称当时世界上最大的邮轮,船上的人年龄各异,背景不同,有贵族豪门,也有平民旅人,邮轮撞击冰山后,船上的人马上采取措施安排救生艇转移人员,从本次海难中存活下来的,也就是幸存者。:各等级船舱中男性乘客多于女性乘客,但是女性乘客的获救比例都高于男性乘客。不同等级船舱的女性乘客的获救率高于男性,这可能是女士优先的原因。:小孩、青少年、成年人、老年人的获救比例依次从高到低,小孩的获救比例最高,老年人的获救比例最低。船舱等级对于乘客的获救率存在较大的影响。不同等级船舱的男性乘客与女性乘客的获救率。原创 2024-04-03 17:49:28 · 4201 阅读 · 0 评论 -
Scikit-Learn K均值聚类
K-Means算法通过把样本分离成n个具有相同方差的类的方式来对数据进行聚类,最小化一个称为惯量或簇内平方和的准则。该算法需要指定簇的数量。K-Means算法的基本原理是:根据样本特征的相似度或距离远近,将样本(N个点)划分成若干个类(K个集群),使得每个点都属于离其最近的中心点(均值)对应的类(集群)根据算法原理,常用的聚类算法可分为:基于划分的聚类算法K-Means、基于层次的聚类算法HC、基于密度的聚类算法。K-Means假设一个样本属于一个类,K-Means的类别是样本的中心(均值);原创 2024-04-02 18:07:28 · 1098 阅读 · 0 评论 -
数据预处理:离散化
离散化(也称量化或分箱)是一种数据预处理技术,用于将连续的数值型的数据转换为离散的分类的标签。某些具有连续特征的数据集可能会从离散化中受益,因为离散化可以将连续属性的数据集转换为仅具有名义属性的数据集这种处理方式主要应用于一些需要转化为分类问题的数据集,如机器学习和数据挖掘中的输入变量。离散化的原理主要是通过将连续的数值属性转化为离散的数值属性来实现数据的转化这个过程通常会采用分箱(Binning)的方法。原创 2024-03-29 15:15:38 · 1721 阅读 · 0 评论 -
数据预处理:特征编码
在机器学习中,处理离散属性(分类特征/类别特征)是一个重要的任务,需要将离散属性转换为可供模型使用的数值表示机器学习算法本质上都是在基于矩阵做线性代数计算,因此参加计算的特征必须是数值型的,对于非数值型的特征需要进行编码处理分类特征是用来表示分类的,分类特征是离散的,非连续的。例如性别(男/女)、等级(优/良/合格)等有些分类特征也是数值,例如,账号ID、IP地址等,但是这些数值并不是连续的。连续的数字是数值特征,离散的数字是分类特征。原创 2024-03-28 15:49:53 · 1120 阅读 · 0 评论 -
Scikit-Learn K近邻分类
但需要注意的是,和K-Means不同,当K值很大时,错误率会更高,例如我们共有35个样本,当K增大到30时,数据的预测会把更多距离较远的数据也放入比较,最终导致预测偏差较大。K近邻(K-Nearest Neighbors,KNN)又称最近邻,意思是K个最近的邻居,是一种有监督的学习分类器,虽然它可以用于回归问题,但它通常用作分类算法。)会将样本数据按照一定比例拆分成训练数据和验证数据,然后从选取一个较小的K值开始,不断增加K的值,然后计算验证数据的误差,最终找到一个比较合适的K值。原创 2024-03-25 18:04:18 · 1420 阅读 · 0 评论 -
Scikit-Learn逻辑回归(二)
上篇中,我们详细介绍了逻辑回归的概念、原理和推导,以及Scikit-Learn线性回归模型在鸢尾花数据集中的应用。可以看到,在逻辑回归中应用了多项式特征后,我们训练出的新模型对样本数据的预测评分达到了0.96。从图中可以看到,我们线性决策边界明显无法将样本分成两类,训练的模型准确度评分很低。如果逻辑回归处理的是不规则决策边界的分类问题,那么我们就应该多考虑运用多项式回归。从样本数据图可以看出,二分类的决策边界应该是一个圆或椭圆。而逻辑回归(二分类)的线性决策边界(详见上篇)为。,则变换圆的标准方程可得。原创 2024-03-21 11:52:21 · 489 阅读 · 0 评论 -
Scikit-Learn逻辑回归(一)
逻辑回归(Logistic Regression)主要解决二分类问题,用来表示某个事件发生的可能性。逻辑回归在机器学习知识结构中的位置如下:逻辑回归的思想最早可以追溯到19世纪,由英国统计学家Francis Galton在研究豌豆遗传问题时首次提出。然而,真正将逻辑回归应用于机器学习的是加拿大统计学家Hugh Everett,他在1970年代提出了广义线性模型(GLM),其中包括逻辑回归逻辑回归这个算法的名称有一定的误导性。虽然它的名称中有“回归”,当它在机器学习中不是回归算法,而是分类算法。原创 2024-02-26 18:05:26 · 1559 阅读 · 0 评论 -
如何使用逻辑回归处理多标签问题?
OvO(One vs One)方法是指从多个类别中任意抽取出两个类别,然后将对应的样本输入到一个逻辑回归的模型中,学习到一个对这两个类别的分类器,然后重复以上的步骤,直到所有类别两两之间都学习到一个分类器。将新样本分别输入训练好的3个分类器:第一个分类器会认为它是一个十字星,第二个分类器会认为它偏向三角形,第三个分类器会认为它是十字星,经过3个分类器的投票之后,可以预测红色圆圈位置所代表的数据的类别为十字星。现在,我们有一个在红色圆圈位置的数据,如下图,通过上述方法,我们如何预测的这个数据是哪一类?原创 2024-02-22 10:47:57 · 759 阅读 · 0 评论 -
逻辑回归的输出值为什么可以作为概率?
函数是伯努利分布的联结函数的反函数,它将线性函数映射到了伯努利分布的期望上,而伯努利分布的期望本身就是概率,因此,逻辑回归得到的输出可以代表概率,也正是因为它代表概率,才落在。广义线性模型中,每一个分布都对应存在一个正则(规范)联结函数(Canonical Link Function),这一函数的反函数可以将线性函数映射到该分布的期望。每一个特定的广义线性模型对应一个特定的分布,例如我们之前提到的线性回归模型,对应的是正态分布。),该函数将线性函数映射到伯努利分布的期望上,使其输出可以作为概率。原创 2024-02-21 11:32:13 · 1071 阅读 · 0 评论 -
逻辑回归为什么使用交叉熵而不用均方差?
函数)的梯度成正比,当预测值接近于1或0时,梯度会变得非常小,几乎接近于0,这样会导致当真实值与预测值差距很大时,损失函数收敛的很慢,无法进行有效学习,与我们的期望不符合。而信息熵是一个常数,并且在计算的时候,交叉熵相较于KL散度更容易,所以我们直接使用了交叉熵作为损失函数。因此,如果使用均方差损失,训练的时候可能看到的情况是预测值和真实值之间的差距越大,参数调整的越小,训练的越慢。函数的梯度的影响,且真实值与预测值的差越大,损失函数的梯度就越大,更新的速度也就越快,这正是我们想要的。原创 2024-02-20 17:53:11 · 1356 阅读 · 0 评论 -
逻辑回归简介
1、情景描述2、逻辑回归2.1、逻辑回归的概念2.2、逻辑回归的原理及推导2.3、逻辑回归的解3、交叉熵与交叉熵损失函数3.1、交叉熵3.2、交叉熵损失函数。原创 2024-02-04 21:23:07 · 562 阅读 · 0 评论 -
机器学习数学基础
向量可以形象化地表示为带箭头的线段,箭头所指的方向代表向量的方向,线段的长度代表向量的大小。张量是一种泛化的多维数组概念,它可以是任何维度(秩)的,例如向量(矢量)是一阶张量,矩阵是二阶张量,高于二维的称为三阶张量、四阶张量等。总的来说,标量是最简单的数据形式,而向量、矩阵和更高维度的张量则是复杂度逐渐增加的多维数据结构,它们在现代科学和技术的许多领域中都扮演着重要角色。对于行列数相同的两个或多个向量,点积运算就是对这两个或多个向量对应位相乘后求和的操作,点积的结果是一个标量。原创 2024-01-31 17:56:06 · 2886 阅读 · 1 评论 -
数据预处理:纠偏
纠偏是指将偏态分布的数据转换为正态分布的数据。为什么要进行纠偏呢?数据整体服从正态分布,则样本均值和方差相互独立。正态分布具有很多很好的性质,很多模型的前提都是假设数据服从正态分布的例如,线性回归,它假设误差服从正态分布,从而每个样本点出现的概率就可以表示成正态分布的形式,将多个样本点连乘再取对数,就是所有训练集样本出现的条件概率,最大化这个条件概率就是线性回归最终要求解的问题。这里这个条件概率的最终表达式的形式就是我们熟悉的误差平方和。原创 2024-01-29 17:49:37 · 674 阅读 · 0 评论 -
数据预处理:缺失值处理
由于各种原因,现实世界的许多数据集包含缺失值,通常将其编码为空白,NaN或其他占位符。但是,此类数据集与Scikit-Learn估计器不兼容,后者假定数组中的所有值都是具有含义的数字使用不完整数据集的基本策略是舍弃包含缺失值的整行或整列。但是,这是以丢失可能有价值的数据为代价的(即使数据不完整)。更好的策略是估算缺失值,即从数据的已知部分推断出缺失值缺失值的处理是数据预处理中非常重要的一步,因为很多机器学习算法都假设数据是完整的,算法的执行过程中没有考虑缺失值的影响。原创 2024-01-29 15:49:58 · 1423 阅读 · 0 评论 -
sklearn.preprocessing中的标准化StandardScaler与scale的区别
标准化主要用于对样本数据在不同特征维度进行伸缩变换,目的是使得不同度量之间的特征具有可比性,同时不改变原始数据的分布一些机器学习算法对输入数据的规模和量纲非常敏感,如果输入数据的特征之间存在数量级差异,可能会影响算法的准确性和性能标准化处理的好处是我们在进行特征提取时,可以忽略不同特征之间由于噪声所导致的度量差异,而保留样本在各个维度上的信息分布,提高算法的准确性和性能,增加数据的可解释性计算数据列的算数平均值(mean)计算数据列的标准差/方差(std)scale()函数和。原创 2024-01-29 14:27:38 · 994 阅读 · 0 评论 -
Scikit-Learn线性回归(六)
由于惩罚项是关于回归系数ω的绝对值之和,因此惩罚项在零点处是不可导的,导致其代价函数不是处处可导的,所以就没办法通过直接求导的方式来直接得到解析解ω,类似于应用在岭回归上的最小二乘法在此失效。但不同的是,Lasso回归针对不同的自变量,会使其收敛的速度不一样。坐标轴下降法与梯度下降法类似,都属于迭代算法,不同的是,坐标轴下降法是是沿着坐标轴(维度)下降,而梯度下降法是沿着梯度的负方向下降。相比于岭回归模型的抛物面(圆面),L1正则化项的正四边形顶点更容易与损失函数的同心圆相交,更能起到特征选择的效果。原创 2024-01-09 17:47:00 · 652 阅读 · 0 评论 -
Scikit-Learn线性回归(三)
多项式回归算法并没有新的特点,完全是使用线性回归的思路,关键在于为数据添加新的特征,而这些新的特征是原有的特征的多项式组合,采用这样的方式就能解决非线性问题。我们已经知道,线性回归的目标是通过大量训练数据(历史数据)得到一个能反映自变量与因变量关系的回归模型(拟合曲线),进而根据回归拟合曲线预测新数据点(测试数据)的目标标签值。所谓简单线性回归,就是单变量的线性回归,如销售日期与南瓜价格的线性关系或南瓜种类与南瓜价格的线性关系,简单线性回归的回归线是一条直线,它可以单方面的探索特征间的相关性。原创 2024-01-04 22:03:25 · 703 阅读 · 0 评论 -
Scikit-Learn线性回归(五)
如图所示,图一表示过拟合,可以看到拟合曲线完美的经过了每一个点,模型非常复杂,这种情况下,经验误差极小,但是预测值的方差(误差平方和)会很大。过拟合是指模型在训练集中表现良好,而在测试集中表现很差,即泛化误差大于经验误差,说明拟合过度,模型泛化能力降低,只能够适用于训练集,通用性不强;如上图所示,横坐标表示模型的复杂度,纵坐标表示模型的误差。从图中可得,随着模型复杂度的提升,方差会不断增大,偏差会逐渐减小,而泛化误差会受偏差和方差的影响,我们的目标是找到泛化误差的最小值,这可以通过平衡方差与偏差来实现。原创 2024-01-04 17:47:22 · 1063 阅读 · 0 评论 -
Scikit-Learn线性回归(四)
在第一篇文章Scikit-Learn线性回归(一)L∑i1myi−fxi2Li1∑myi−fxi2回忆一下,损失函数主要用于评估模型拟合的好坏,损失函数衡量了我们构造的模型的预测值与真实值的差异,因此,我们希望我们的预测结果与真实值的差异越小越好。也就是我们希望损失函数取得最小值损失函数取得最小值是我们构建模型的本质要求,求解模型的特征向量ω\omegaω是我们构建模型的核心问题minω∣∣Y−Xω∣∣22mi。原创 2024-01-02 18:06:01 · 1269 阅读 · 0 评论 -
数据预处理:标准化和归一化
1、数据预处理概述2、数据标准化3、数据归一化4、标准化和归一化怎么选在选择了合适模型的前提下,机器学习可谓是“训练台上3分钟,数据数量和质量台下10年功”。数据的收集与准备是机器学习中的重要一步,是构建一个好的预测模型大厦的基石。数据的数量与质量直接决定了预测模型的好坏所以,在数据的收集与准备这一步中,必须做好数据预处理。Scikit-Learn提供了标准化和归一化等API方便我们进行数据预处理。标准化和归一化是常用的数据缩放方式。原创 2023-12-31 19:39:52 · 1032 阅读 · 0 评论 -
模型评估指标(一)
中,分子是真实值与预测值的差值,也就是我们的模型没有捕获到的信息总量;分母是真实标签的总信息量,所以,(特征)的波动所描述。简单来说,该参数可以用来判断统计模型对数据的拟合能力(说服力)衡量的是1减去我们的模型没有捕获到的信息量占真实标签总信息量的比例,因此,在Scikit-learn中,回归模型的性能分数就是利用。对拟合效果打分的,具体的实现函数是。在统计学中,决定系数反映了因变量。用数学语言简单描述,决定系数R。的波动有多少百分比能被自变量。假设我们有m组观测数据。原创 2023-12-27 18:01:30 · 1051 阅读 · 0 评论