周志华西瓜书笔记 1.2 基本术语

最新推荐文章于 2022-04-19 22:41:12 发布

0ng

最新推荐文章于 2022-04-19 22:41:12 发布

阅读量1.1k

点赞数

分类专栏：西瓜书笔记

本文链接：https://blog.csdn.net/weixin_43804251/article/details/104175057

版权

西瓜书笔记专栏收录该内容

7 篇文章 0 订阅

订阅专栏

我原本想着一边读一边删减一些以后好复习的,谁知这书一句废话没有,一晚上敲了个寂寞

1.2 基本术语

关于西瓜的数据:
(色泽 $=$ 青绿; 根蒂 $=$ 蜷缩; 敲声 $=$ 浊响)
(色泽 $=$ 乌黑; 根蒂 $=$ 稍蜷; 敲声 $=$ 沉闷)
(色泽 $=$ 浅白; 根蒂 $=$ 硬挺; 敲声 $=$ 清脆)

一对括号内是一条记录," $=$ “意思是"取值为”.

一组记录的集合称为一个"数据集"(data set), 每条记录是关于一个事件或对象(这里是一个西瓜)的描述, 成为一个"示例"(instance)或"样本"(sample). 反映事件或对象在某方面的表现或性质的事项, 例如"色泽", 称为"属性值"(attribute value). 属性张成的空间称为"属性空间"(attribute space)、“样本空间”(sample space)或 “输入空间”. 把"色泽" “根蒂” “敲声"作为三个坐标轴, 则它们张成一个用于描述西瓜的三维空间, 每个西瓜都可在这个空间中找到自己的坐标位置. 由于空间中的每个点对应一个坐标向量, 因此也把一个示例称为一个"特征向量”(feature vector).

一般地, 令 $D=\bf \{x_1,x_2,...,x_m\}$ 表示包含 $m$ 个示例的数据集, 每个示例由 $d$ 个属性描述, 则每个示例 $\bf x_i$ $x_{i1};x_{i2};...;x_{id})$ 是 $d$ 维样本空间 $X$ 中的一个向量, $\bf x_i\in X$ , 其中 $x_{ij}$ 是 $x_i$ 在 $j$ 个属性上的取值, $d$ 称为样本 $x_i$ 的"维数"(dimensionality).

从数据中学得模型的过程称为"学习"(learning)或"训练"(training), 这个过程通过执行某个学习算法来完成. 训练过程中使用的数据称为"训练数据"(training data), 其中每个样本称为一个"训练样本"(training sample), 训练样本组成的集合称为"训练集"(training set). 学得模型对应了关于数据的某种潜在的规律, 因此亦称"假设"(hypothesis); 这种潜在规律自身, 则称为"真相"或"真实"(ground-truth), 学习过程就是为了找出或逼近真相. 书本有时将模型称为"学习器"(learner).

要建立关于"预测"(prediction)的模型, 需要获得训练样本的"结果"信息, 例如"((色泽=青绿; 根蒂=蜷缩; 敲声=浊响), 好瓜)". 这里关于示例结果的信息"好瓜", 称为"标记"(label); 拥有了标记信息的示例, 则称为"样例"(example). 一般地, 用 $x_i,y_i)$ 表示第 $i$ 个样例, 其中 $y_i\in Y$ 是示例 $x_i$ 的标记, $Y$ 是所有标记的集合, 亦称"标记空间"(label space)或"输出空间".

若预测的是离散值, 如"好瓜" “坏瓜”,此类学习任务称为"分类"(classification); 若预测的是连续值, 如西瓜成熟度0.95、0.37, 此类学习任务称为"回归"(regression). 只涉及两个类别的"二分类"(binary classification)任务, 称其中一个类为"正类"(positive class), 另一个为"反类"(negative class); 涉及多个类别称为"多分类"(multi-class classification)任务. 一般预测任务是希望通过对训练集 ${(x_i,y_i),(x_2,y_2),...,(x_m,y_m)\}$ 进行学习, 建立一个从输入空间 $\chi$ 到输出空间 $Y$ 的映射 $f:X\mapsto Y$ . 对二分类任务, 通常令 $Y=\{-1,+1\}$ 或 ${0,1\}$ ; 对多分类任务, $\left|Y\right|>2$ ;对回归任务, $Y=\Bbb R$ , $\Bbb R$ 为实数集.

使用学得模型进行预测的过程称为"测试"(testing), 被预测的样本称为"测试样本"(testing sample).

还可以对西瓜做"聚类"(clustering), 即将训练集中的西瓜分成若干组, 每组称为一个"簇"(cluster); 这些自动形成的簇可能对应一些潜在的概念划分, 例如"浅色瓜" “深色瓜”. 学习过程有助于我们了解数据内在的规律, 能为更深入地分析数据建立基础. 聚类学习中, “浅色瓜” "深色瓜"这样的概念我们事先是不知道的.

根据训练数据是否拥有标记信息, 学习任务可划分为两大类: “监督学习”(supervised learning)和"无监督学习"(unsuperviser learning), 分类和回归是前者的代表, 聚类是后者的代表.

注意, 机器学习的目标是使学得的模型能很好地适用于"新样本". 这种能力, 称为"泛化"(generalization)能力. 具有强泛化能力的模型能很好地适用于整个样本空间.通常假设样本空间中全体样本服从一个未知的"分布"(distribution) $D$ , 获得的每个样本都是独立地从这个分布上采样获得的, 即"独立同分布"(independent and identically distributed, 简称 $i . i . d .$ ).