1.1 表1.1中若只包含编号为1和4的两个样例,试给出相应的版本空间。
答:从一般到特殊或是从特殊到一般对整个假设空间进行搜索,删除与正例1不一致的假设,或与反例4一致的假设,最终得到版本空间为:
(1)色泽=青绿 根蒂=蜷缩 敲声=浊响
(2)色泽=青绿 根蒂=蜷缩 敲声= *
(3)色泽=青绿 根蒂=* 敲声=浊响
(4)色泽= * 根蒂=蜷缩 敲声=浊响
(5)色泽=青绿 根蒂= * 敲声= *
(6)色泽= * 根蒂=蜷缩 敲声= *
(7)色泽= * 根蒂= * 敲声=浊响
1.2 与使用单个合取式来进行假设表示相比,使用“析合范式”将使得假设空间具有更强的表示能力。若使用最多包含k个合取式的析合范式来表达表1.1西瓜分类问题的假设空间,试估算有多少种可能的假设。
答:表1.1包含3种属性,它的假设空间大小为3×4×4+1=49
考虑冗余情况:
具体假设 2×3×3=18种
一个属性泛化假设 2×3+3×3+2×3=21种
两个属性泛化假设 2+3+3=8种
三个属性泛化假设 1种
不考虑冗余、空集的情况下k最大取值为48,考虑冗余的情况下k最大取值为18
k=1时,共48种
k=18时,共1种
k取中间值,比较复杂。
1.3 若数据包含噪声,则假设空间中有可能不存在与所有训练样本都一致的假设。在此情形下,设计一种归纳偏好用于假设选择。
答:(1)最简单的设计:训练样本一致特征越多越好,即一致性比例越高越好,为归纳偏好。考虑归纳偏好应尽量与问题相匹配,所以可使归纳偏好与噪声分布相匹配。
(2)通常认为两个数据的属性越相近,则更倾向于将他们分为同一类。若相同属性出现了两种不同的分类,则认为它属于与他最临近几个数据的属性。也可以考虑同时去掉所有具有相同属性而不同分类的数据,留下的数据就是没误差的数据,但是可能会丢失部分信息。
1.5 试述机器学习能在互联网搜索的哪些环节起作用。
答:消息推送,如广告推荐;网站排名;图片搜索。