终于有人把任务T、性能P和经验E讲明白了


导读:本文带你了解机器学习类别与范式。

作者:张春强 张和平 唐振

来源:大数据DT(ID:hzdashuju)

关于机器学习的定义,Tom Michael Mitchell的这段话被广泛引用:

对于某类任务T和性能度量P,如果一个计算机程序在T上其性能P随着经验E而自我完善,那么我们称这个计算机程序从经验E中学习。

该定义没有突出人类进行机器学习的目的——决策,即机器学习是计算机根据数据做出或改进预测或行为的方法。

但总体来说,机器学习的任务就是围绕T、P、E展开的,下面将进一步拆解T、P、E。下文中有算法、模型、学习器混用的现象,有时表达的是同一个意思,有时依据上下文会有细微的区别。

01 经验E

“经验”一词较为抽象,既可以是文字、图形,也可以是当面交流的对话等,属于知识的范畴。对于机器学习而言,经验必须表示为计算机可以处理的形式——数据,按照更贴近计算机底层的说法是,计算机可直接计算的数值,这也是最终进入算法中的形式(向量运算、矩阵运算等)。

正因如此,机器学习中涉及大量的数据处理活动:将文字和字符编码为数值、将图像进行数值化处理等,然后进入算法学习。机器学习中所有数据处理的原则可归结为两条:适合计算机处理和便于机器学习算法学习。

扩展数据的上下游将产生大量与数据相关的活动,如数据获取、数据存储、数据ETL等,与之对应的是不同的数据行业或技术领域。

我们一般会将数据表示为如表1-1所示的二维表,并适当调整原始数据。

▼表1-1 示例数据

表中所有的数据可称为样本(sample),表中的每一行称为样例或实(instance),而每一列(此数据中排除首尾两列)在机器学习中更常称为特征(feature),在计量经济、统计等学科中更常称为变量(variable)或属性(attribute)。该数据源中instant列仅作标识用,无其他意义;而cnt列为目标(target)列,一般称为标签(label)。

有时人们也称只包含标识(或维度)列和标签列的数据集为样本,样本不包含特征。

从表1-1中可以看出,此处的数据有不同的类型:dteday列是日期型数据(时间序列),fake_1列是数据字符(无序),fake_2列是字符(有序),workingday列是布尔型数据(无序),temp列是常规的浮点数据。

不同类型数据的处理方法不同。根据具体的机器学习问题,我们有时需要进行特征离散化或连续化处理。除此之外,机器学习实践过程中还可能会遇到空间、图片、音频和视频等数据,这些数据也需要特殊处理。

我们将dteday到temp列以X表示,cnt列以y来表示,则机器学习的最终任务可表示为:

y = f(X)

通常来说,y为因变量(dependent variable)或响应变量,X为自变量(Independent Variable)、独立变量、解释变量或预测变量,所有可能的f称为假设空间

按照统计学的概念,我们将上面的表述进一步扩展:将X所有可能构成的集合叫作领域集(domain set),对应的y为标签集(label set)。可获得的数据样本可进一步分为训练集(Train set)、测试集(Test set)和验证集(Validate set)等。

顾名思义,训练数据是(某轮&#

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值