机器学习中的概念---输入空间、标记空间、样本空间、假设空间、版本空间

在这里插入图片描述

一:输入空间/特征空间/属性空间

  • 这三个概念都是指的X,都是指的输入量

二:标记空间/输出空间

  • 指的是Y,指的是输出量。(有时候,X-Y的所有映射也被当作Y,概念上有点混乱)

一:样本空间
样本空间的标准定义是:所有可能存在的、合理的、情况的集合。机器学习的主要工作就是寻找从属性空间(X)到标记空间(Y)的一个映射关系。说法很多,但可以认为Xi-Yi实际存在的一个组合就是一个样本,而所有样本的集合,就是样本空间。
上表中给出了四种实际存在的情况,也即是我们目前所能获得的训练集。而上述的的训练集只是样本空间一个很小的采样。
说法很多:
1、Xi-Yi实际存在的一个组合就是一个样本,而所有样本的集合,就是样本空间
2、X就是样本空间。

二:假设空间

起初,我们并不能得到样本空间。只有样本空间的一个很小的子集,也就是上面的四条样本。但可以确定的是(目前姑且这样认为)每一条示例有三条属性,即一个瓜的好或不好,由三个属性确定,而每个属性有三个值。就拿西瓜的颜色来说,表中有青绿、乌黑,姑且加一种浅白(仅为演示何为假设空间),可以确定的是一个好瓜应该是青绿或乌黑色;但也可能,西瓜的好或不好与颜色无关,即在好瓜的情况下西瓜的颜色可能是*(*代表任意颜色),那么西瓜的颜色这一属性就有四个可能的取值。

即假设空间可以这样定义:色泽:、根蒂:、敲声:是好瓜。色泽:、根蒂:、敲声:浊响是好瓜。色泽:、根蒂:、敲声:清脆是好瓜。色泽:、根蒂:、敲声:沉闷是好瓜。这是一个简单的排列组合问题。一共有44*4+1=65种情况。最后的1表示任何情况都不是好瓜,即没有好瓜的情况。

可以看出来,假设空间是在已知属性和属性可能取值的情况下,对所有可能满足目标(好瓜)的情况的一种毫无遗漏的假设集合。

三:版本空间

   从上面可以看到,假设空间,单纯的罗列的所有可能的情况,这更多的是一种数学上的罗列。显然假设空间中肯定有很多是不满足情况的,或是不合理的。…………比如根据上述表格中的训练数据(样本空间的子集)可以看出,“色泽:青绿、根蒂:硬挺、敲声:清脆不是好瓜“,所以假设空间中的“色泽:青绿、根蒂:硬挺、敲声:清脆是好瓜”显然是错误的假设,应当舍去。…………上面是删除假设空间明显错的假设。但还有那种不错误,但会有严重误导倾向的假设也需要删除。比如假设空间中有“色泽:青绿、根蒂:蜷缩、敲声:浊响是好瓜”,这和训练数据集正好吻合,显然是正确的,但是对于假设空间来说,此条假设也应该被删除。因为如果说“色泽:青绿、根蒂:蜷缩、敲声:浊响是好瓜”那么“色泽:乌黑、根蒂:蜷缩、敲声:浊响就不是好瓜了”这显然有种“过度精确”的错误。仅根据上述训练集中的四条数据来判断,“色泽:*、根蒂:蜷缩、敲声:浊响是好瓜”便比较合适了。这能很好的契合表中的四条数据。…………如果按照上述原则“色泽:浅白、根蒂:蜷缩、敲声:浊响”会被判断为好瓜,这正确与否显然是不知道的。所以,如果想做出正确的判断,就需要全面大量的训练,目的就是尽量的排出假设空间中不合理的假设。而剩下的假设就是在满足已有训练数据集的情况下,做出的最优选择了。…………现实问题中,我们常面临很大的假设空间,但学习过程是根据有限的样本训练集进行的,那么对于不同版本的训练集,应该会有不同版本的“删除后”的假设空间与之对应。便称之为版本空间。    

参考文献:https://blog.csdn.net/csucsgoat/article/details/79598803

  • 3
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
假设我们要使用机器学习的方法训练一个能够识别手写数字的系统,那么在这个过程,以下概念和术语会被涉及: 数据集:我们需要一些已经标记好的手写数字图像数据集,这就是我们的数据集。 样本:数据集的每幅图像就是一个样本。 特征:为了能够对这些手写数字进行分类,我们需要提取出一些特征,比如图像每个像素点的灰度值。 样本空间:所有可能的样本构成的空间,就是我们的样本空间。 特征向量:我们需要将每个样本的特征提取出来,这样就可以将它们表示成一个向量,这个向量就是特征向量。 学习:机器学习就是让计算机通过学习,从数据发现规律和模式,进而提高对未知数据的预测能力。 训练数据:我们需要将数据集拆分为训练数据和测试数据,训练数据就是我们用于训练系统的数据。 训练样本:训练数据的每个样本就是一个训练样本,我们希望通过对这些训练样本的学习,得出一个可以对新的未知样本进行分类的学习器。 训练集:训练集就是由训练样本组成的集合。 学习器:学习器是指一个算法或模型,它可以根据训练样本的特征向量,来学习样本之间的关系,从而得出一个分类器或回归器等。 标记:在数据集,每个样本都要被标记上它所代表的数字,这个标记就是标记。 样例:数据集的每个样本都是一个样例,通过学习样例,我们可以训练出一个可以对新的未知样本进行预测的学习器。 测试:在训练完成后,我们需要使用测试数据来测试训练出的学习器的效果。 测试样本:测试数据的每个样本就是一个测试样本,我们需要将这些测试样本输入到训练好的学习器,来测试学习器对未知数据的预测能力。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值