引言
什么是机器学习
机器学习正是这样一门学科,它致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。
机器学习的主要内容
机器学习所研究的主要内容,是关于在计算机上从数据中产生“模型”(model)的算法,即“学习算法”(learning algorithm)。
“模型”泛指从数据中学得的结果。
基本术语
基本术语 | 解释 | 实例化 |
---|---|---|
数据集 | 数据集是指在机器学习或数据分析中使用的一组数据样本的集合。这些数据通常被组织为表格或矩阵的形式,其中每一行代表一个数据样本,每一列代表数据样本的一个特征或属性。 | (色泽=青绿;根蒂=蜷缩;敲声=浊响); (色泽=乌黑;根蒂=稍蜷;敲声=沉闷); (色泽=浅白;根蒂=硬挺;敲声=清脆) |
训练集(数据集的一类) | 是用来训练模型的数据集,通常占总数据集的大部分,模型会根据训练集的数据进行学习和优化。 | |
验证集(数据集的一类) | 用来评估模型在训练过程中的性能,包括模型的准确性和泛化能力。验证集通常用于选择模型的参数和超参数。 | |
测试集(数据集的一类) | 是用来测试训练好的模型的性能的数据集,模型将用测试集的数据进行预测或分类,并将预测结果与测试集中的真实结果进行比较,以评估模型的性能和准确性。 | |
样本(示例) | 数据集中的每条记录是关于一个事件或对象的描述,称为一个 "示例(instance)"或者 “样本(sample)”。 有时整个数据集亦称一个“样本”,因为它可看作对样本空间的一个采样;通过上下文可判断出“样本”是指单个示例还是数据集。 | (色泽=青绿;根蒂=蜷缩;敲声=浊响) |
特征(属性) | 见实例化。 | 色泽;根蒂;敲声 |
属性值 | 见实例化。 | 青绿;蜷缩;浊响 |
样本空间(输入空间) | 我们把“色泽”“根蒂”“敲声”作为三个坐标轴,则它们张成一个用于描述西瓜的三维空间,每个西瓜都可在这个空间中找到自己的坐标位置。可以理解为属性组成的空间。 | |
特征向量(feature vector) | 每个西瓜都可在三维空间中找到自己的坐标位置。由于空间中的每个点对应一个坐标向量,因此我们也把一个示例称为一个“特征向量”(feature vector)。 | |
维数 | 特征向量中特征的数目。 | |
学习 / 训练 / 训练数据 / 训练样本 / 训练集 | 从数据中学习得到模型的过程称为 “学习(learning)” 或 “训练(training)”,这个过程通过执行某个学习算法来完成。 训练过程中使用的数据称为 “训练数据(training data)”,其中每个样本称为一个 “训练样本(training sample)”,训练样本组成的集合称为 “训练集(training set)”。 | |
假设 / 真实 / 真相 / 学习器 | 学得模型对应了关于数据的某种潜在的规律,因此亦称为 “假设(hypothesis)”。这种潜在规律自身,称为 “真相” 或 “真实” (ground-truth)。学习过程就是为了找出或逼近真相。 | |
测试 / 测试样本 | 学得模型后,使用其进行预测的过程称为 “测试(testing)”,被预测的样本称为 “测试样本(testing sample)”。 | |
簇(cluster) | 聚类得到一组或多组数据,每一组数据称为一个 “簇”。 | |
学习任务的分类 / 监督学习 / 无监督学习 | 根据训练数据是否拥有标记信息,学习任务可大致划分为两大类:“监督学习”(supervised learning)和“无监督学习”(unsupervised learning),分类和回归是前者的代表,而聚类则是后者的代表。 | |
泛化能力 | 学得模型适用于新样本的能力称为 “泛化(generalization)能力”,具有强泛化能力的模型能很好地适用于整个样本空间。 | |
假设分布 / 独立同分布 | 通常假设样本空间中全体样本服从一个未知“分布”(distribution)D,我们获得的每个样本都是独立地从这个分布上采样获得的,即“独立同分布”(independent and identically distributed,简称i.i.d.)。 一般而言,训练样本越多,我们得到的关于D的信息越多,这样就越有可能通过学习获得具有强泛化能力的模型。 |
假设空间
基本术语 | 解释 | 实例化 |
---|---|---|
归纳与演绎 | 归纳(induction) 与演绎(deduction) 是科学推理的两大基本手段。 归纳是从特殊到一般的 “泛化” 过程,即从具体的事实归结出一般性的规律。 演绎是从一般到特殊的"特化"过程,即从基础原理推演出具体情况。 | |
归纳学习 / 概念学习 | 归纳学习有狭义和广义之分,广义的归纳学习大体相当于从样例中学习,而狭义的归纳学习则要求从训练数据中学得概念(concept),因此亦称为 “概念学习” 或 “概念形成”。 | |
版本空间 | 可能有多个假设与训练集一致,即存在着一个与训练集一致的 “假设集合”,我们称之为 “版本空间(version space)”。 |
归纳偏好
基本术语 | 解释 | 实例化 |
---|---|---|
归纳偏好与机器学习算法 | 机器学习算法在学习过程中对某种类型假设的偏好,称为 “归纳偏好(inductive bias)”。任何一个有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上 “等效” 的假设所迷惑,而无法产生确定的学习结果。 | 现在有这样一个版本空间,用来判断好瓜: (色泽=*;根蒂=蜷缩;敲声=*); (色泽=*;根蒂=*;敲声=浊响); (色泽=*;根蒂=蜷缩;敲声=浊响); 现在有一个新瓜(色泽=青绿;根蒂=蜷缩;敲声=沉闷)根据上述判断是否为好瓜,结果不同 |
奥卡姆剃刀与归纳偏好 | 奥卡姆剃刀(Occam’s razor) 是一种常见的、自然科学研究中最基础的原则,即 “若有多个假设与观察一致,则选最简单的那个”。 |