机器学习3: 假设空间和版本空间(Hypothesis Space and Version Space)

假设空间和版本空间

学习的过程可以被看作是在所有假设 (hypothesis) 组成的空间中进行搜索的过程,所搜的目的是找
到能够与数据集所匹配 (fit) 的假设。假设的表示一旦确定,假设空间及其规模大小也就确定了
我们可以从西瓜书中的西瓜例子和南瓜书中的房价例子中来更好地理解假设空间的概念:

例子 1(西瓜书):

在西瓜例子中(这是一个二分类问题),假设的表示是西瓜的三个 attribute,所以假设空间就
是西瓜的三个 attribute 组成的样本空间,空间大小是:色泽的所有可能 * 根蒂的所有 * 可能
敲声的所有可能。Figure 1.2展示了西瓜问题的假设空间


我们有很多的策略对这个假设空间进行搜索,搜索的过程可以是从上向下 (从一般到特殊),也可以是自底向上 (从特殊到一般),我们在搜索过程中不断删去与正例不一致的假设以及与
负例一致的假设,剩下的假设就是我们想要的和训练集一致 ((即对所有的训练样本能够进行
正确的判断)) 的假设,称作能够拟合训练集的模型,由于 training set 有限,得到的结果通常
包含多个模型 (i.e. more than one hypothesis fit training set ),这些模型的集合称为版本空
间 (version space), 如 Figure 1.3 所示。当有多个假设空间时,将所有能够拟合训练集的模型
构成的集合称为“版本空间”。

 

 例子 2(南瓜书)

Figure 1.4展示的是房价问题的数据,基于对以上数据的观察以及日常生活经验,不难得出
“房价与学校数量成正比”的假设,若将学校数量设为 x,房价设为 y,则该假设的表示为 y
= wx + b (一元一次函数关系),此时房价预测问题的假设空间即为“一元一次函数”。确定
假设空间以后便可以采用机器学习算法从假设空间中学得模型,即从一元一次函数空间中学
得能满足 Figure 1.4中数值关系的某个一元一次函数。根据一元线性回归算法可学得模型为 y
= 3x − 2。
除此之外,也可以将问题复杂化,假设学校数量和房价呈 y = wx^2 + b一元二次函数关系 (假
设的表示形式发生了改变),此时问题变为了线性回归中的多项式回归问题,按照多项式回归
算法可学得模型为 y = x^2
因此,以 Figure 1.4中数据作为训练集可以有多个假设空间,且在不同的假设空间中都有可
能学得能够拟合训练集的模型7,我们将所有能够拟合训练集的模型构成的集合称为“版本空
间”。

 

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值