机器学习-基本术语

引言

什么是机器学习

机器学习正是这样一门学科,它致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。

机器学习的主要内容

机器学习所研究的主要内容,是关于在计算机上从数据中产生“模型”(model)的算法,即“学习算法”(learning algorithm)。

“模型”泛指从数据中学得的结果。

基本术语

基本术语解释实例化
数据集数据集是指在机器学习或数据分析中使用的一组数据样本的集合。这些数据通常被组织为表格或矩阵的形式,其中每一行代表一个数据样本,每一列代表数据样本的一个特征或属性。(色泽=青绿;根蒂=蜷缩;敲声=浊响);
(色泽=乌黑;根蒂=稍蜷;敲声=沉闷);
(色泽=浅白;根蒂=硬挺;敲声=清脆)
训练集(数据集的一类)是用来训练模型的数据集,通常占总数据集的大部分,模型会根据训练集的数据进行学习和优化。
验证集(数据集的一类)用来评估模型在训练过程中的性能,包括模型的准确性和泛化能力。验证集通常用于选择模型的参数和超参数。
测试集(数据集的一类)是用来测试训练好的模型的性能的数据集,模型将用测试集的数据进行预测或分类,并将预测结果与测试集中的真实结果进行比较,以评估模型的性能和准确性。
样本(示例)数据集中的每条记录是关于一个事件或对象的描述,称为一个 "示例(instance)"或者 “样本(sample)”。
有时整个数据集亦称一个“样本”,因为它可看作对样本空间的一个采样;通过上下文可判断出“样本”是指单个示例还是数据集。
(色泽=青绿;根蒂=蜷缩;敲声=浊响)
特征(属性)见实例化。色泽;根蒂;敲声
属性值见实例化。青绿;蜷缩;浊响
样本空间(输入空间)我们把“色泽”“根蒂”“敲声”作为三个坐标轴,则它们张成一个用于描述西瓜的三维空间,每个西瓜都可在这个空间中找到自己的坐标位置。可以理解为属性组成的空间。
特征向量(feature vector)每个西瓜都可在三维空间中找到自己的坐标位置。由于空间中的每个点对应一个坐标向量,因此我们也把一个示例称为一个“特征向量”(feature vector)。
维数特征向量中特征的数目。
学习 / 训练 / 训练数据 / 训练样本 / 训练集从数据中学习得到模型的过程称为 “学习(learning)” 或 “训练(training)”,这个过程通过执行某个学习算法来完成。
训练过程中使用的数据称为 “训练数据(training data)”,其中每个样本称为一个 “训练样本(training sample)”,训练样本组成的集合称为 “训练集(training set)”。
假设 / 真实 / 真相 / 学习器学得模型对应了关于数据的某种潜在的规律,因此亦称为 “假设(hypothesis)”。这种潜在规律自身,称为 “真相” 或 “真实” (ground-truth)。学习过程就是为了找出或逼近真相。
测试 / 测试样本学得模型后,使用其进行预测的过程称为 “测试(testing)”,被预测的样本称为 “测试样本(testing sample)”。
簇(cluster)聚类得到一组或多组数据,每一组数据称为一个 “簇”。
学习任务的分类 / 监督学习 / 无监督学习根据训练数据是否拥有标记信息,学习任务可大致划分为两大类:“监督学习”(supervised learning)和“无监督学习”(unsupervised learning),分类和回归是前者的代表,而聚类则是后者的代表。
泛化能力学得模型适用于新样本的能力称为 “泛化(generalization)能力”,具有强泛化能力的模型能很好地适用于整个样本空间。
假设分布 / 独立同分布通常假设样本空间中全体样本服从一个未知“分布”(distribution)D,我们获得的每个样本都是独立地从这个分布上采样获得的,即“独立同分布”(independent and identically distributed,简称i.i.d.)。
一般而言,训练样本越多,我们得到的关于D的信息越多,这样就越有可能通过学习获得具有强泛化能力的模型。

假设空间

基本术语解释实例化
归纳与演绎归纳(induction) 与演绎(deduction) 是科学推理的两大基本手段。
归纳是从特殊到一般的 “泛化” 过程,即从具体的事实归结出一般性的规律。
演绎是从一般到特殊的"特化"过程,即从基础原理推演出具体情况。
归纳学习 / 概念学习归纳学习有狭义和广义之分,广义的归纳学习大体相当于从样例中学习,而狭义的归纳学习则要求从训练数据中学得概念(concept),因此亦称为 “概念学习” 或 “概念形成”。
版本空间可能有多个假设与训练集一致,即存在着一个与训练集一致的 “假设集合”,我们称之为 “版本空间(version space)”。

归纳偏好

基本术语解释实例化
归纳偏好与机器学习算法机器学习算法在学习过程中对某种类型假设的偏好,称为 “归纳偏好(inductive bias)”。任何一个有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上 “等效” 的假设所迷惑,而无法产生确定的学习结果。现在有这样一个版本空间,用来判断好瓜:
(色泽=*;根蒂=蜷缩;敲声=*);
(色泽=*;根蒂=*;敲声=浊响);
(色泽=*;根蒂=蜷缩;敲声=浊响);
现在有一个新瓜(色泽=青绿;根蒂=蜷缩;敲声=沉闷)根据上述判断是否为好瓜,结果不同
奥卡姆剃刀与归纳偏好奥卡姆剃刀(Occam’s razor) 是一种常见的、自然科学研究中最基础的原则,即 “若有多个假设与观察一致,则选最简单的那个”。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值