基本术语
以西瓜的数据为例
(色泽=青绿;根蒂=蜷缩;敲声=浊响),
(色泽=乌黑;根蒂=稍蜷;敲声=沉闷),
(色泽=浅白;根蒂=硬挺;敲声=清脆),…
- 记录
括号内的内容为一条记录 数据集
记录的集合
- 示例/样本/特征向量
每条记录是关于一个事件和记录的描述,称示例 - 属性/特征
反映事件或对象在某方面的表现或性质的事项,如“色泽”、“根蒂”、“敲声” - 属性值
属性上的取值,如“青绿”“乌黑” - 属性空间/样本空间/输入空间
属性张成的空间,如西瓜的三个属性作为三个坐标轴,则张成一个描述西瓜的三维空间。一个示例为一个特征向量
二、关于学习
- 学习/训练
从数据中学得模型的过程。
这个过程通过执行某个学习算法来完成。学习算法通常有不同参数进行设置,使用不同参数值或训练数据将产生不同结果 - 训练数据、训练样本和训练集
训练数据为训练过程中使用的数据,其中每个样本为训练样本,训练样本组成的集合为训练集 - 假设
学得模型对应了关于数据的某种潜在的规律 - 真相/真实
潜在规律自身为真相 - 标记
要建立关于“预测”的模型就要获得训练样本的“结果”信息,“结果”信息称为标记
如((色泽=青绿;根蒂=蜷缩;敲声=浊响);好瓜) 好瓜就是标记 - 样例
样例就