Datawhale组队学习-吃瓜教程task01

心心念念的Datawhale组队学习来啦,本次主要学习吃瓜教程,了解机器学习相关概念和算法!!!

第一章绪论

下面主要介绍机器学习的几个相关概念:

  1. 样本:也称为“示例”,是关于一个事件或对象的描述。因为要想让计算机能对现实生活中的事物进行机器学习,必须先将其抽象为计算机能理解的形式,计算机最擅长做的就是进行数学运算,因此考虑如何将其抽象为某种数学形式。这里主要采用向量的形式。例如,如果用色泽、根蒂和敲声这 3 个特征来刻画西瓜,那么一个“色泽青绿,根蒂蜷缩,敲声清脆”的西瓜用向量来表示即为 x =(青绿; 蜷缩; 清脆) (向量中的元素用分号“;”分隔时表示此向量为列向量,用逗号“,”分隔时表示为行向量) ,其中青绿、蜷缩和清脆分别对应为相应特征的取值,也称为“属性值”。

  1. 样本空间:也称为“输入空间”或“属性空间”。由于样本采用的是标明各个特征取值的“特征向量”来进行表示,根据线性代数的知识可知,有向量便会有向量所在的空间,因此称表示样本的特征向量所在的空间为样本空间,通常用花式大写的 X 表示。

  1. 数据集:数据集通常用集合来表示,令集合 D = {x1, x2, ..., xm} 表示包含 m 个样本的数据集,一般同一份数据集中的每个样本都含有相同个数的特征,假设此数据集中的每个样本都含有 d 个特征,则第 i个样本的数学表示为 d 维向量:xi = (xi1; xi2; ...; xid),其中 xij 表示样本 xi 在第 j 个属性上的取值。

  1. 模型:简单来说,样本分为测试样本和训练样本,各自构成训练集和测试集。随后,接着选用某个机器学习算法,让其在训练集上进行“学习”(或称为“训练”),然后产出得到“模型”(或称为“学习器”),最后用测试集来测试模型的效果。通常机器学习算法都有可配置的参数,同一个机器学习算法,使用不同的参数配置或者不同的训练集,训练得到的模型通常都不同。

  1. 标记:机器学习的本质就是在学习样本在某个方面的表现是否存在潜在的规律,我们称该方面的信息为“标记”。例如在学习西瓜的好坏时,“好瓜”和“坏瓜”便是样本的标记。一般第 i 个样本的标记的数学表示为 yi,标记所在的空间称为“标记空间”或“输出空间”,数学表示为花式大写的 Y。标记通常也看作为样本的一部分,因此,一个完整的样本通常表示为 (x, y)。通常根据标记不同,将机器学习进行分类。

但是总督来说,无论是分类还是回归,机器学习算法最终学得的模型都可以抽象地看作为以样本 x 为自变量,标记 y为因变量的函数 y = f(x),即一个从输入空间 X 到输出空间 Y 的映射。例如在学习西瓜的好坏时,机器学习算法学得的模型可看作为一个函数 f(x),给定任意一个西瓜样本 xi = (青绿; 蜷缩; 清脆),将其输入进函数即可计算得到一个输出 yi = f(xi),此时得到的 yi 便是模型给出的预测结果,当 yi 取值为 1 时表明模型认为西瓜 xi 是好瓜,当 yi 取值为 0 时表明模型认为西瓜 xi 是坏瓜。

  1. 泛化:由于机器学习的目标是根据已知来对未知做出尽可能准确的判断,因此对未知事物判断的准确与否才是衡量一个模型好坏的关键,我们称此为“泛化”能力。

通过泛化,不同模型对训练集中每个样本的判断都对,但是其所学到的规律是不同的。导致此现象最直接的原因是算法的不同,但是算法通常是有限的,可穷举的,尤其是在特定任务场景下可使用的算法更是有限,因此,数据便是导致此现象的另一重要原因,这也就是机器学习领域常说的“数据决定模型的上限,而算法则是让模型无限逼近上限”。通俗来讲,常数据量越大、特征数值化越合理,特征收集越全越细致,模型效果通常越好,因为此时模型更易学得样本之间潜在的规律。而“算法则是让模型无限逼近上限”是指当数据相关的工作已准备充分时,接下来便可用各种可适用的算法从数据中学习其潜在的规律进而得到模型,不同的算法学习得到的模型效果自然有高低之分,效果越好则越逼近上限,即逼近真相。

第 2 章 模型评估与选择

首先,也来介绍几个概念:

这里强调一下,过拟合是由于模型的学习能力相对于数据来说过于强大,反过来说,欠拟合是因为模型的学习能力相对于数据来说过于低下。举个例子,在计算机学习识别树叶过程中,过拟合表现为把样本不一般的特性都学到了,比如认为只有周边有锯齿的才是树叶:而欠拟合呢就是认为绿色的都是树叶。在机器学习过程中,欠拟合一般比较好克服。

在上文中,我们介绍了模型,在现实生活中,参数是可调节的,即不同的参数配置产生的不同的模型。那么该如何评价不同模型的好坏呢?下面主要介绍3 种模型评估方法:留出法、交叉验证法、自助法。

这里需要注意,留出法要保证数据的一致性,交叉验证法的本质就是留出法,在数据量较小时不采用自助法-产生误差大。

参数调节:算法配置好相应参数后进行训练,训练结束会得到一个模型。不同参数对应模型不同,在很多任务中,参数多而复杂,而往往参数调节的好不好会直接影响到最后结果

下面区分几个概念:

性能度量指标较多,但是一般常用的只有错误率、精度、查准率、查全率、F1、ROC 和 AUC。

部分概念上文已经叙述,这里说明查准率和查全率:

简单来说,查准率是对预测结果来说的,相对模型的预测结果而言的:假设模型一共预测出了100个正类,其中80个是正确的,那么precision就是80%。查全率是相对真实的情况而言的:假设测试集里面有100个正类,如果模型预测出其中40个是正类,那模型的recall就是40%。查全率也称为召回率,等价于灵敏性(Sensitivity)真正率(True Positive Rate,TPR)

举个例子,在在挑瓜的过程中,查准率表示我挑选出的好瓜有多少,而查全率表示我能不能把好瓜全部挑出。

两者关系也可通过曲线来表示:线下面积越大性能越好。

更常用的度量F1表示P和R的加权调和,而F1的更一般形式Fβ通过β和1的大小比较来展示P和R的影响。宏值和微值F1还在理解。

2.3.3之后跳过

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值