终于有人把任务T、性能P和经验E讲明白了-CSDN博客

本文链接：https://blog.csdn.net/zw0Pi8G5C1x/article/details/116382353

本文详细介绍了机器学习中任务T（任务类型）、性能P（评价标准）和经验E（数据）的概念。经验E在机器学习中表现为数据，包括数据的获取、处理和表示。任务T根据数据是否有标签分为有监督、无监督、半监督和强化学习。性能P是衡量模型表现的优劣，包括各种评价指标和数据集的选择。通过对机器学习任务的分类和性能评判，帮助读者形成对机器学习的全面认识。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

导读：本文带你了解机器学习类别与范式。

作者：张春强张和平唐振

来源：大数据DT（ID：hzdashuju）

关于机器学习的定义，Tom Michael Mitchell的这段话被广泛引用：

对于某类任务T和性能度量P，如果一个计算机程序在T上其性能P随着经验E而自我完善，那么我们称这个计算机程序从经验E中学习。

该定义没有突出人类进行机器学习的目的——决策，即机器学习是计算机根据数据做出或改进预测或行为的方法。

但总体来说，机器学习的任务就是围绕T、P、E展开的，下面将进一步拆解T、P、E。下文中有算法、模型、学习器混用的现象，有时表达的是同一个意思，有时依据上下文会有细微的区别。

01 经验E

“经验”一词较为抽象，既可以是文字、图形，也可以是当面交流的对话等，属于知识的范畴。对于机器学习而言，经验必须表示为计算机可以处理的形式——数据，按照更贴近计算机底层的说法是，计算机可直接计算的数值，这也是最终进入算法中的形式（向量运算、矩阵运算等）。

正因如此，机器学习中涉及大量的数据处理活动：将文字和字符编码为数值、将图像进行数值化处理等，然后进入算法学习。机器学习中所有数据处理的原则可归结为两条：适合计算机处理和便于机器学习算法学习。

扩展数据的上下游将产生大量与数据相关的活动，如数据获取、数据存储、数据ETL等，与之对应的是不同的数据行业或技术领域。

我们一般会将数据表示为如表1-1所示的二维表，并适当调整原始数据。

▼表1-1 示例数据

表中所有的数据可称为样本（sample），表中的每一行称为样例或实例（instance），而每一列（此数据中排除首尾两列）在机器学习中更常称为特征（feature），在计量经济、统计等学科中更常称为变量（variable）或属性（attribute）。该数据源中instant列仅作标识用，无其他意义；而cnt列为目标（target）列，一般称为标签（label）。

有时人们也称只包含标识（或维度）列和标签列的数据集为样本，样本不包含特征。

从表1-1中可以看出，此处的数据有不同的类型：dteday列是日期型数据（时间序列），fake_1列是数据字符（无序），fake_2列是字符（有序），workingday列是布尔型数据（无序），temp列是常规的浮点数据。

不同类型数据的处理方法不同。根据具体的机器学习问题，我们有时需要进行特征离散化或连续化处理。除此之外，机器学习实践过程中还可能会遇到空间、图片、音频和视频等数据，这些数据也需要特殊处理。

我们将dteday到temp列以X表示，cnt列以y来表示，则机器学习的最终任务可表示为：

y = f(X)

通常来说，y为因变量（dependent variable）或响应变量，X为自变量（Independent Variable）、独立变量、解释变量或预测变量，所有可能的f称为假设空间。

按照统计学的概念，我们将上面的表述进一步扩展：将X所有可能构成的集合叫作领域集（domain set），对应的y为标签集（label set）。可获得的数据样本可进一步分为训练集（Train set）、测试集（Test set）和验证集（Validate set）等。

顾名思义，训练数据是（某轮&#