目录
1.机器学习的概念
- 广义上讲:机器学习(Mechine Learning)是计算机程序随着经验积累自动提升性能或系统自我改进的过程。
- 形式化定义:对于某类任务T和性能标准P,如果一个计算机程序在T上以P衡量性能,随着经验E而自我完善,就称这个计算机程序从经验E中学习。(在计算机系统中,经验通常以数据的形式存在)
2.机器学习研究的主要内容
机器学习所研究的主要内容,是如何在计算机上从数据中产生模型的算法,即学习算法。机器学习的过程是从大量数据中自动的寻找有用模型的过程。
3.基本术语
以手写体数字识别的问题为例,假设每个数字对应一个28像素x28像素的灰度图像,按照矩阵逐列首尾相连拼成向量的方式,每一幅数字图像可以表示为一个由784个实数组成的向量。
- 数据集(Data Set)—— 假定收集了一组手写体数字的图像,均以向量的形式表示,这组图像向量的集合称为一个数据集。
- 实例(Instance)或样本(Sample)—— 数据集中的每个向量是关于一副手写体数字图像的描述,称为一个实例或样本。
- 属性(Attribute)或特征(Feature)—— 784维向量中的每一维反映了图像在某个特定方面的表现性质,称为属性或特征。
- 属性值(Attribute Value)—— 向量中每个元素对应的实数值称为属性值。
- 属性空间(Attribute Space)或样本空间(Sample Space)或输入空间(Input Space)—— 这些属性所张成的空间称为属性空间或样本空间。
- 特征向量(Feature Vector)—— 所有特征张成一个描述手写体数字的784维空间,在这个属性空间中,每一幅图像对应了该空间中的一个点。由于空间中的每个点可以用一个坐标向量表 示,因此也把一个样本成为一个特征向量。
- 学习(Learning)或训练(Training)—— 机器学习试图从数据中寻找特定的模型,这种从数据中学得模型的过程称为学习或训练。
- 训练集(Training Set)—— 在学习算法中,一个由N个数字组成的大的集合
被称作训练集,用来调节模型的参数和估计模型。
- 训练数据(Training Data)—— 在训练过程中使用的数据称为训练数据。
- 训练样本(Training Sample)—— 训练集中的每个样本称为一个训练样本,训练集就是所有训练样本组成的集合。
- 目标向量(Target Vector)—— 训练集中数字的类别称为目标向量,用来代表训练数据的标记信息或标签(Label)。
- 样例(Example)—— 拥有了标记信息的样本称为样例。 一般的,用
表示第
个样例,其中,
,
是样本
的标记
- 标记空间(Label Space)或输出空间 (Output Space)——
是所有标记的集合,称为标记空间或输出空间。
- 测试集(Test Set)—— 用来检验最终选择最优的模型的性能如何。
- 测试(Testing)—— 使用学习得到的模型进行预测的过程称为测试。
- 测试样本(Testing Sample)—— 被预测的样本称为测试样本。
- 泛化能力(Generalization)—— 学习得到的模型适用于新样本的能力。
- 分类(Classification)—— 如果希望预测的结果是离散值,此类学习任务称为分类。
- 二分类(Binary Classification) —— 在分类任务中,将只涉及两个类别的学习任务称为二分类任务。通常将其中一个类为正类(Positive Class),相应的样例称为正例 (Positive Example);称另一个类为负类和反类(Negative Class),相应的样例称为负例或反例(Negative Example)
- 多分类(Multi-Class Classification) —— 在分类任务中,将只涉及多个类别的学习任务称为多分类任务。
- 回归(Regression)—— 如果希望预测的结果是连续值,此类学习任务称为回归。
- 聚类(Clustering)—— 如果在学习的过程中使用的训练样本不具备标记信息,我们依然希望可以将训练集中的数据分成若干组,这样的学习任务成为聚类。
- 簇(Cluster)—— 聚类任务中的每个组称为一个簇。
- 监督学习(Supervised Learning)和无监督学习(Unsupervised Learning)—— 根据训练数据是否有标记信息,机器学习任务可大致分为监督学习(如分类和回归)和无监督学习(如聚类)。
4.概念学习与假设空间
- 归纳(Induction) —— 从特殊到一般的泛化过程,即从具体的事实归结出一般性规律。
- 演绎(Deduction) —— 从一般到特殊的特化过程,即从基础原理推演出具体情况。
- 归纳学习(Inductive Learning )—— 从特殊的训练样例中归纳出一般函数是机器学习的中心问题,该归纳过程称为归纳学习。
概念学习(Concept Learning)—— 概念学习有广义和狭义之分,广义是指从样例中学习的归纳过程,狭义指从训练中学得概念,因此狭义的归纳学习也称为概念学习。
(1)概念学习考虑的问题是,给定一样例集合及每个样例是否属于某一概念的标记,怎样推断出该概念的一般定义。
(2)① 概念定义在一个实例(Instance)集合上,这个集合表示为。
② 在学习目标概念是,必须提供一套训练样例(Training Examples),每个样例为中的一个实例
及它的目标概念值
。通常用序偶 <
> 来描述训练样例,表示包含了实例
和目标概念值
。符号
用来表示训练样例的集合。
③ 一旦给定目标概念 的训练样例集,学习器面临的问题就是假设或估计
。
④ 可以把学习过程看作一个在所有可能假设(All Possible Hypothesis)的集合上进行搜索的过程,搜索的目标是找到与训练集匹配(Match)或拟合(Fit)的假设。这些所有可能的假设组成的空间称为假设空间(Hypothesis Space)。
⑤ 假设空间中的假设集合才是确定目标概念所考虑的范围,通常用符号来表示。
⑥ 机器学习的目标就是寻找一个假设 ,使对于
中的所有
有
。
(3) 机器学习的任务是在整个实例集合上确定与目标概念
相同的假设
。
(4) 事实上,目标概念 仅仅是训练样例上的信息,没有包含测试样例。因此,归纳学习算法最多只能保证输出的假设能与训练样本相拟合。如果没有更多的信息,我们只能假定,对于未见实例,最好的假设就是与训练数据最佳拟合的假设。
(5) 由此引出归纳学习的一个基本假设,即归纳学习假设:任一假设如果在足够大的训练集例集中很好地逼近目标函数,它也能在未见实例中很好地逼近目标函数。
(6) 概念学习可以看做一个搜索的过程,范围是假设的表示所隐含定义的整个空间。搜索的目标是寻找能最好的拟合训练样例的假设。
该文学习总结自李克清、时允田主编的《机器学习及应用》