机器学习-基本术语

贾欣晓

已于 2024-05-19 19:07:52 修改

阅读量1k

点赞数 11

分类专栏： # 机器学习文章标签：机器学习人工智能

于 2024-05-19 19:02:06 首次发布

本文链接：https://blog.csdn.net/wozaibohaibian/article/details/139046796

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

文章目录

引言
- 什么是机器学习
- 机器学习的主要内容
基本术语
假设空间
归纳偏好

引言

什么是机器学习

机器学习正是这样一门学科，它致力于研究如何通过计算的手段，利用经验来改善系统自身的性能。

机器学习的主要内容

机器学习所研究的主要内容，是关于在计算机上从数据中产生“模型”(model)的算法，即“学习算法”(learning algorithm)。

“模型”泛指从数据中学得的结果。

基本术语

基本术语	解释	实例化
数据集	数据集是指在机器学习或数据分析中使用的一组数据样本的集合。这些数据通常被组织为表格或矩阵的形式，其中每一行代表一个数据样本，每一列代表数据样本的一个特征或属性。	（色泽=青绿；根蒂=蜷缩；敲声=浊响）; （色泽=乌黑；根蒂=稍蜷；敲声=沉闷）; （色泽=浅白；根蒂=硬挺；敲声=清脆）
训练集（数据集的一类）	是用来训练模型的数据集，通常占总数据集的大部分，模型会根据训练集的数据进行学习和优化。
验证集（数据集的一类）	用来评估模型在训练过程中的性能，包括模型的准确性和泛化能力。验证集通常用于选择模型的参数和超参数。
测试集（数据集的一类）	是用来测试训练好的模型的性能的数据集，模型将用测试集的数据进行预测或分类，并将预测结果与测试集中的真实结果进行比较，以评估模型的性能和准确性。
样本（示例）	数据集中的每条记录是关于一个事件或对象的描述，称为一个 "示例（instance）"或者 “样本（sample）”。有时整个数据集亦称一个“样本”，因为它可看作对样本空间的一个采样；通过上下文可判断出“样本”是指单个示例还是数据集。	（色泽=青绿；根蒂=蜷缩；敲声=浊响）
特征（属性）	见实例化。	色泽；根蒂；敲声
属性值	见实例化。	青绿；蜷缩；浊响
样本空间（输入空间）	我们把“色泽”“根蒂”“敲声”作为三个坐标轴，则它们张成一个用于描述西瓜的三维空间，每个西瓜都可在这个空间中找到自己的坐标位置。可以理解为属性组成的空间。
特征向量（feature vector）	每个西瓜都可在三维空间中找到自己的坐标位置。由于空间中的每个点对应一个坐标向量，因此我们也把一个示例称为一个“特征向量”(feature vector)。
维数	特征向量中特征的数目。
学习 / 训练 / 训练数据 / 训练样本 / 训练集	从数据中学习得到模型的过程称为 “学习（learning）” 或 “训练（training）”，这个过程通过执行某个学习算法来完成。训练过程中使用的数据称为 “训练数据（training data）”，其中每个样本称为一个 “训练样本（training sample）”，训练样本组成的集合称为 “训练集（training set）”。
假设 / 真实 / 真相 / 学习器	学得模型对应了关于数据的某种潜在的规律，因此亦称为 “假设（hypothesis）”。这种潜在规律自身，称为 “真相” 或 “真实” (ground-truth)。学习过程就是为了找出或逼近真相。
测试 / 测试样本	学得模型后，使用其进行预测的过程称为 “测试（testing）”，被预测的样本称为 “测试样本（testing sample）”。
簇（cluster）	聚类得到一组或多组数据，每一组数据称为一个 “簇”。
学习任务的分类 / 监督学习 / 无监督学习	根据训练数据是否拥有标记信息，学习任务可大致划分为两大类：“监督学习”(supervised learning)和“无监督学习”(unsupervised learning)，分类和回归是前者的代表，而聚类则是后者的代表。
泛化能力	学得模型适用于新样本的能力称为 “泛化（generalization）能力”，具有强泛化能力的模型能很好地适用于整个样本空间。
假设分布 / 独立同分布	通常假设样本空间中全体样本服从一个未知“分布”(distribution)D，我们获得的每个样本都是独立地从这个分布上采样获得的，即“独立同分布”（independent and identically distributed，简称i.i.d.）。一般而言，训练样本越多，我们得到的关于D的信息越多，这样就越有可能通过学习获得具有强泛化能力的模型。

假设空间

基本术语	解释	实例化
归纳与演绎	归纳（induction）与演绎（deduction）是科学推理的两大基本手段。归纳是从特殊到一般的 “泛化” 过程，即从具体的事实归结出一般性的规律。演绎是从一般到特殊的"特化"过程，即从基础原理推演出具体情况。
归纳学习 / 概念学习	归纳学习有狭义和广义之分，广义的归纳学习大体相当于从样例中学习，而狭义的归纳学习则要求从训练数据中学得概念（concept），因此亦称为 “概念学习” 或 “概念形成”。
版本空间	可能有多个假设与训练集一致，即存在着一个与训练集一致的 “假设集合”，我们称之为 “版本空间（version space）”。

归纳偏好

基本术语	解释	实例化
归纳偏好与机器学习算法	机器学习算法在学习过程中对某种类型假设的偏好，称为 “归纳偏好（inductive bias）”。任何一个有效的机器学习算法必有其归纳偏好，否则它将被假设空间中看似在训练集上 “等效” 的假设所迷惑，而无法产生确定的学习结果。	现在有这样一个版本空间，用来判断好瓜：（色泽=；根蒂=蜷缩；敲声=）；（色泽=；根蒂=；敲声=浊响）；（色泽=*；根蒂=蜷缩；敲声=浊响）；现在有一个新瓜（色泽=青绿；根蒂=蜷缩；敲声=沉闷）根据上述判断是否为好瓜，结果不同
奥卡姆剃刀与归纳偏好	奥卡姆剃刀（Occam’s razor）是一种常见的、自然科学研究中最基础的原则，即 “若有多个假设与观察一致，则选最简单的那个”。