数据例如(碗=干净),(书=厚),其中括号内是一条记录,“=”意思是“取值为”。
其中每条记录是关于一个事件或对象的描述,称为一个示例或样本。
碗、书称为属性或特征。干净、厚称为属性值。
属性张成的空间称为属性空间、样本空间或输入空间。
以一个碗为例子,把色泽、材质、厚度作为三个坐标轴,则他们张成一个用于描述一个碗的三维空间,每个碗都可以找到自己的坐标位置。
从数据中学得的模型称为学习或者训练。训练过程使用的数据称为训练数据,其中每个样本称为训练样本,训练样本组成的集合称为训练集。
学得模型对应了关于数据的某种潜在规律,称为假设。这种潜在的规律自身,称为真相或真实。
训练数据的结果信息例如,((色泽=均匀;材质=突出;厚度=良好),好碗)。这里关于示例结果的信息,称为标记,所有标记的集合,称为标记空间或输出空间。
我们欲预测的离散值,例如好碗、坏碗,此类学习任务称为分类,若是连续值,例如碗的厚度为0.75,0.85,次任务称为回归,对只涉及两个类别的二分类任务,分为正类和负类,对设计多个类别时,则称为多分类任务。
一般地,预测任务是希望通过训练集进行学习 从而建立从输入空间到输出空间的映射关系。
学得模型后,使用其进行预测的过程称为测试,被预测的样本称为预测样本。
聚类是将训练几种的碗分成若干组,每组称为一个簇,这些簇可能形成一些潜在的概念,例如光滑碗、粗糙碗、劣质碗。在聚类学习中,我们并不知道有劣质碗粗糙碗这类的概念。
根据聚类学习能否拥有标记信息,可以大致分为两类:监督学习和无监督学习,分类和回归是前者的代表,聚类则是后者的代表。
学得的模型适用于新样本的能力,称为泛化能力。通常每个样本都是独立同分布的。