机器学习--概念和基本术语（一）

最新推荐文章于 2022-05-22 19:15:31 发布

特立独行的哪吒

最新推荐文章于 2022-05-22 19:15:31 发布

阅读量3.3k

点赞数 3

分类专栏：机器学习文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/weixin_46100158/article/details/116499192

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1.机器学习的概念

广义上讲：机器学习（Mechine Learning）是计算机程序随着经验积累自动提升性能或系统自我改进的过程。
形式化定义：对于某类任务T和性能标准P，如果一个计算机程序在T上以P衡量性能，随着经验E而自我完善，就称这个计算机程序从经验E中学习。（在计算机系统中，经验通常以数据的形式存在）

2.机器学习研究的主要内容

机器学习所研究的主要内容，是如何在计算机上从数据中产生模型的算法，即学习算法。机器学习的过程是从大量数据中自动的寻找有用模型的过程。

3.基本术语

以手写体数字识别的问题为例，假设每个数字对应一个28像素x28像素的灰度图像，按照矩阵逐列首尾相连拼成向量的方式，每一幅数字图像可以表示为一个由784个实数组成的向量 $x$ 。

数据集（Data Set）—— 假定收集了一组手写体数字的图像，均以向量的形式表示，这组图像向量的集合称为一个数据集。
实例（Instance）或样本（Sample）—— 数据集中的每个向量是关于一副手写体数字图像的描述，称为一个实例或样本。
属性（Attribute）或特征（Feature）—— 784维向量中的每一维反映了图像在某个特定方面的表现性质，称为属性或特征。
属性值（Attribute Value）—— 向量中每个元素对应的实数值称为属性值。
属性空间（Attribute Space）或样本空间（Sample Space）或输入空间（Input Space）—— 这些属性所张成的空间称为属性空间或样本空间。
特征向量（Feature Vector）—— 所有特征张成一个描述手写体数字的784维空间，在这个属性空间中，每一幅图像对应了该空间中的一个点。由于空间中的每个点可以用一个坐标向量表示，因此也把一个样本成为一个特征向量。

学习（Learning）或训练（Training）—— 机器学习试图从数据中寻找特定的模型，这种从数据中学得模型的过程称为学习或训练。
训练集（Training Set）—— 在学习算法中，一个由N个数字组成的大的集合 $\left \{ x_{1}, x_{2},\cdots, x_{N} \right \}$ 被称作训练集，用来调节模型的参数和估计模型。
训练数据（Training Data）—— 在训练过程中使用的数据称为训练数据。
训练样本（Training Sample）—— 训练集中的每个样本称为一个训练样本，训练集就是所有训练样本组成的集合。
目标向量（Target Vector）—— 训练集中数字的类别称为目标向量，用来代表训练数据的标记信息或标签（Label）。
样例（Example）—— 拥有了标记信息的样本称为样例。一般的，用 $\left ( {x_{_{i}}}, y_{_{i}}\right )$ 表示第 $i$ 个样例，其中， $y{_{i}}\epsilon Y$ , $y{_{i}}$ 是样本 $x{_{i}}$ 的标记
标记空间（Label Space）或输出空间（Output Space）—— $Y$ 是所有标记的集合，称为标记空间或输出空间。
测试集（Test Set）—— 用来检验最终选择最优的模型的性能如何。
测试（Testing）—— 使用学习得到的模型进行预测的过程称为测试。
测试样本（Testing Sample）—— 被预测的样本称为测试样本。
泛化能力（Generalization）—— 学习得到的模型适用于新样本的能力。
分类（Classification）—— 如果希望预测的结果是离散值，此类学习任务称为分类。
二分类（Binary Classification） —— 在分类任务中，将只涉及两个类别的学习任务称为二分类任务。通常将其中一个类为正类（Positive Class）,相应的样例称为正例（Positive Example）；称另一个类为负类和反类（Negative Class），相应的样例称为负例或反例（Negative Example）
多分类（Multi-Class Classification） —— 在分类任务中，将只涉及多个类别的学习任务称为多分类任务。
回归（Regression）—— 如果希望预测的结果是连续值，此类学习任务称为回归。
聚类（Clustering）—— 如果在学习的过程中使用的训练样本不具备标记信息，我们依然希望可以将训练集中的数据分成若干组，这样的学习任务成为聚类。
簇（Cluster）—— 聚类任务中的每个组称为一个簇。
监督学习（Supervised Learning）和无监督学习（Unsupervised Learning）—— 根据训练数据是否有标记信息，机器学习任务可大致分为监督学习（如分类和回归）和无监督学习（如聚类）。

4.概念学习与假设空间

归纳（Induction） —— 从特殊到一般的泛化过程，即从具体的事实归结出一般性规律。
演绎（Deduction） —— 从一般到特殊的特化过程，即从基础原理推演出具体情况。
归纳学习（Inductive Learning ）—— 从特殊的训练样例中归纳出一般函数是机器学习的中心问题，该归纳过程称为归纳学习。

概念学习（Concept Learning）—— 概念学习有广义和狭义之分，广义是指从样例中学习的归纳过程，狭义指从训练中学得概念，因此狭义的归纳学习也称为概念学习。

（1）概念学习考虑的问题是，给定一样例集合及每个样例是否属于某一概念的标记，怎样推断出该概念的一般定义。

（2）① 概念定义在一个实例（Instance）集合上，这个集合表示为 $X$ 。

② 在学习目标概念是，必须提供一套训练样例（Training Examples），每个样例为 $X$ 中的一个实例 $x$ 及它的目标概念值 $c\left ( x \right )$ 。通常用序偶 < $x,c\left ( x \right )$ > 来描述训练样例，表示包含了实例 $x$ 和目标概念值 $c\left ( x \right )$ 。符号 $D$ 用来表示训练样例的集合。

③ 一旦给定目标概念 $c$ 的训练样例集，学习器面临的问题就是假设或估计 $c$ 。

④ 可以把学习过程看作一个在所有可能假设（All Possible Hypothesis）的集合上进行搜索的过程，搜索的目标是找到与训练集匹配（Match）或拟合（Fit）的假设。这些所有可能的假设组成的空间称为假设空间（Hypothesis Space）。

⑤ 假设空间中的假设集合才是确定目标概念所考虑的范围，通常用符号 $\boldsymbol{H}$ 来表示。

⑥ 机器学习的目标就是寻找一个假设 $h$ ，使对于 $X$ 中的所有 $x$ 有 $h\left ( x \right ) = c\left ( x \right )$ 。

（3）机器学习的任务是在整个实例集合 $X$ 上确定与目标概念 $c$ 相同的假设 $h$ 。

（4）事实上，目标概念 $c$ 仅仅是训练样例上的信息，没有包含测试样例。因此，归纳学习算法最多只能保证输出的假设能与训练样本相拟合。如果没有更多的信息，我们只能假定，对于未见实例，最好的假设就是与训练数据最佳拟合的假设。

（5）由此引出归纳学习的一个基本假设，即归纳学习假设：任一假设如果在足够大的训练集例集中很好地逼近目标函数，它也能在未见实例中很好地逼近目标函数。

（6）概念学习可以看做一个搜索的过程，范围是假设的表示所隐含定义的整个空间。搜索的目标是寻找能最好的拟合训练样例的假设。

该文学习总结自李克清、时允田主编的《机器学习及应用》

特立独行的哪吒

关注

3
点赞
踩
7

收藏

觉得还不错? 一键收藏
9
评论
机器学习--概念和基本术语（一）

1.机器学习的概念广义上讲：机器学习（Mechine Learning）是计算机程序随着经验积累自动提升性能或系统自我改进的过程。形式化定义：对于某类任务T和性能标准P，如果一个计算机程序在T上以P衡量性能，随着经验E而自我完善，就称这个计算机程序从经验E中学习。（在计算机系统中，经验通常以数据的形式存在）2.机器学习研究的主要内容机器学习所研究的主要内容，是如何在计算机上从数据中产生模型的算法，即学习算法。机器学习的过程是从大量数据中自动的寻找有用模型的过程。3.基本术语...
复制链接

扫一扫

专栏目录