西瓜书填坑【一】假设空间与版本空间

在西瓜问题中,如何根据训练集求所对应的版本空间?

①写出假设空间:先列出所有可能的样本点(即特征向量)(即每个属性都取到所有的属性值)

②对应着给出的已知数据集,将与正样本不一致的、与负样本一致的假设删除。

即可得出与训练集一致的假设集合,也就是版本空间了。

 

假设空间是在已知属性和属性可能取值的情况下,对所有可能满足目标(好瓜)的情况的一种毫无遗漏的假设集合。

例子:

假设一个瓜的好或不好,由三个属性确定。分别是色泽、根蒂、敲声。

其中,色泽有青绿、乌黑、浅白3种取值,根蒂有蜷缩、稍蜷、硬挺3种取值,敲声有浊响、清脆、沉闷3种取值。

那么假设空间由形如 “(色泽=?) ∧ (根蒂=?) ∧ (敲声=?)” 的所有假设组成。

除了考虑属性色泽、根蒂、敲声分别有3 、3、3种可能取值,还要考虑到一种属性可能无论取什么值都合适(用通配符*表示),另外有一种情况就是好瓜这个概念根本不成立(用∅表示),则假设空间大小为 (3 + 1)×(3 + 1)×(3 + 1)+ 1 = 65 。

表1

编号

色泽

根蒂

敲声

1

*

*

*

2

青绿

*

*

3

乌黑

*

*

4

浅白

*

*

5

*

蜷缩

*

6

*

硬挺

*

7

*

稍蜷

*

8

*

*

浊响

9

*

*

清脆

10

*

*

沉闷

11

青绿

蜷缩

*

12

青绿

硬挺

*

13

青绿

稍蜷

*

14

乌黑

蜷缩

*

15

乌黑

硬挺

*

16

乌黑

稍蜷

*

17

浅白

蜷缩

*

18

浅白

硬挺

*

19

浅白

稍蜷

*

20

青绿

*

浊响

21

青绿

*

清脆

22

青绿

*

沉闷

23

乌黑

*

浊响

24

乌黑

*

清脆

25

乌黑

*

沉闷

26

浅白

*

浊响

27

浅白

*

清脆

28

浅白

*

沉闷

29

*

蜷缩

浊响

30

*

蜷缩

清脆

31

*

蜷缩

沉闷

32

*

硬挺

浊响

33

*

硬挺

清脆

34

*

硬挺

沉闷

35

*

稍蜷

浊响

36

*

稍蜷

清脆

37

*

稍蜷

沉闷

38

青绿

蜷缩

浊响

39

青绿

蜷缩

清脆

40

青绿

蜷缩

沉闷

41

青绿

硬挺

浊响

42

青绿

硬挺

清脆

43

青绿

硬挺

沉闷

44

青绿

稍蜷

浊响

45

青绿

稍蜷

清脆

46

青绿

稍蜷

沉闷

47

乌黑

蜷缩

浊响

48

乌黑

蜷缩

清脆

49

乌黑

蜷缩

沉闷

50

乌黑

硬挺

浊响

51

乌黑

硬挺

清脆

52

乌黑

硬挺

沉闷

53

乌黑

稍蜷

浊响

54

乌黑

稍蜷

清脆

55

乌黑

稍蜷

沉闷

56

浅白

蜷缩

浊响

57

浅白

蜷缩

清脆

58

浅白

蜷缩

沉闷

59

浅白

硬挺

浊响

60

浅白

硬挺

清脆

61

浅白

硬挺

沉闷

62

浅白

稍蜷

浊响

63

浅白

稍蜷

清脆

64

浅白

稍蜷

沉闷

65

Ø

 

 

西瓜数据集如下:

表2
编号色泽根蒂敲声好瓜
1青绿蜷缩浊响
2乌黑蜷缩浊响
3青绿硬挺清脆
4乌黑稍蜷沉闷

接下来进行版本空间的计算:

版本空间为与训练集一致的“假设集合”。

在此‘西瓜例’中,我们的学习目标为“好瓜”,所以我们要通过训练集(表2),从假设空间中删除与正例不一致的假设、和(或)与反例一致的假设,最终将会获得与训练集一致(即对所有训练样本能够进行正确判断)的假设,这就是我们学得的结果,学得的假设集合即为要求的版本空间。步骤如下:

1) 根据表2的样本1,我们知“好瓜”的概念是成立的,所以先删除  ∅  的假设。删除假设空间中的红色样本。

2) 删除与正例(好瓜)不一致的假设。

根据样本((色泽=青绿)^(根蒂=蜷缩)^(敲声=浊响))——>好瓜,删除橙色样本

根据样本((色泽=乌黑)^(根蒂=蜷缩)^(敲声=浊响))——>好瓜,在上一步的基础上再删除绿色样本

这里把((色泽=乌黑)^(根蒂=蜷缩)^(敲声=浊响))删除,这个和样本2符合,不要觉得心虚,因为利用样本2进行删除的时候也会删掉((色泽=青绿)^(根蒂=蜷缩)^(敲声=浊响))这样刚好留下了((色泽=*)^(根蒂=蜷缩)^(敲声=浊响))

3)删除与反例(不是好瓜)一致的假设。

根据样本((色泽=青绿)^(根蒂=硬挺)^(敲声=清脆))——>不是好瓜,在上一步的基础上再删除蓝色样本

根据样本((色泽=乌黑)^(根蒂=稍蜷)^(敲声=沉闷))——>不是好瓜,剩余假设空间中已无满足此条件可被删的假设。

此时,只剩余(5)、(8)、(29)与训练集一致。

(5)  (色泽=*)^(根蒂=蜷缩)^(敲声=*)

(8)  (色泽=*)^(根蒂=*)^(敲声=浊响)

(29)(色泽=*)^(根蒂=蜷缩)^(敲声=浊响)

即表1所对应的版本空间为:

色泽=*,根蒂=蜷缩,敲声=*
色泽=*,根蒂=*,敲声=浊响
色泽=*,根蒂=蜷缩,敲声=浊响

现实问题中,我们常面临很大的假设空间,但学习过程是根据有限的样本训练集进行的,那么对于不同版本的训练集,应该会有不同版本的“删除后”的假设空间与之对应。便称之为版本空间。    

版本空间内每一个假设都可以判断上面数据集中的每一条数据,是好瓜还是不是好瓜,但是用不同的假设判断一条新数据可能会得出不一样的结果,这属于“归纳偏好”问题。

  • 38
    点赞
  • 64
    收藏
    觉得还不错? 一键收藏
  • 6
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值