第一章 绪论
参考
1、
资料:
-
解答:
只有1、4两个数据,那么颜色假设则有青绿/乌黑/*,根蒂有蜷缩/稍蜷/*,敲声有浊响/沉闷/*;
加上“不存在好瓜这个概念”即空集,假设空间大小为3x3x3+1=28。
版本空间:
拗口的做法1:删去与正例不一致,与反例一致的假设
直观的做法2:留下与正例一致,再去掉与反例一致的假设
做法1
> 由于正例1,删去颜色不是青绿的/根蒂不是蜷缩的/敲声音不是浊响的; 由于存在好瓜,去掉空集;
> 由于存在反例2,删去颜色乌黑,根蒂稍蜷,敲声沉闷的; 由于存在坏瓜,删去万能情况,即 颜色=\*,根蒂=\*,敲声=\*。
剩下的组成版本空间:共7种
颜色=青绿,根蒂=蜷缩,敲声=浊响
颜色=青绿,根蒂=\*, 敲声=\*
颜色=青绿,根蒂=蜷缩,敲声=\*
颜色=青绿,根蒂=\*, 敲声=浊响
颜色=\*, 根蒂=蜷缩,敲声=浊响
颜色=\*, 根蒂=蜷缩,敲声=\*
颜色=\*, 根蒂=\*, 敲声=浊响
但是其实这种方法得到的版本空间会有问题:
假设只有一个属性,训练集如下:
F=a, good
F=b, good
F=c, bad
那么假设空间大小为3+1+1=5,即:
a b c, *, ∅ \empty ∅
由正例1,删除b,c,
∅
\empty
∅,剩a, *
由正例2,删除a,剩下*
由于反例3,删除*,剩下??
做法2
留下与正例1一致的:即(青绿,*);(蜷缩,*)(浊响,*);组合,共八种:
颜色=青绿,根蒂=蜷缩,敲声=浊响
颜色=青绿,根蒂=\*, 敲声=\*
颜色=青绿,根蒂=蜷缩,敲声=\*
颜色=青绿,根蒂=\*, 敲声=浊响
颜色=\*, 根蒂=\* ,敲声=\*
颜色=\*, 根蒂=蜷缩,敲声=浊响
颜色=\*, 根蒂=蜷缩,敲声=\*
颜色=\*, 根蒂=\*, 敲声=浊响
去掉和反例4一致的颜色=*, 根蒂=* ,敲声=*,剩下7种:
颜色=青绿,根蒂=蜷缩,敲声=浊响
颜色=青绿,根蒂=\*, 敲声=\*
颜色=青绿,根蒂=蜷缩,敲声=\*
颜色=青绿,根蒂=\*, 敲声=浊响
颜色=\*, 根蒂=蜷缩,敲声=浊响
颜色=\*, 根蒂=蜷缩,敲声=\*
颜色=\*, 根蒂=\*, 敲声=浊响
1.2、涉及离散数学,没学过,看不懂题目
1.3、若数据包含噪声,则假设空间中有可能不存在与所有训练样本都一致的假设。在此情形下,试设计一种归纳偏好用于假设选择。
答:说实话,这句话没看懂:
若数据包含噪声,假设空间中有可能不存在与所有训练样本都一致的假设。
换个说法(逆否)来理解下:
若数据包含噪声,假设空间中有可能存在与所有训练样本不全一致的假设。
个人理解,意思是有一些样本,属性全部一样,但是有些标记为正,有些标记为负——噪声,这样导致“不存训练错误为0的假设”。
这时候需要一个准则来做取舍——归纳偏好。
准则可以有:
1、噪声,全部处理为正,或者全部处理为负。
2、噪声样本全扔了。
3、做个聚类,噪声样本靠近正则标记正,靠近负则标记负。
1.4
首先要证明
l
(
h
(
x
)
,
f
(
x
)
)
l(h(x),f(x))
l(h(x),f(x))与h、x无关,是常数:
假设2分类问题,再假设所有可能的f均匀分布,则
l
(
0
,
0
)
=
l
(
1
,
1
)
,
l
(
1
,
0
)
=
l
(
0
,
1
)
l(0,0)=l(1,1), l(1,0)=l(0,1)
l(0,0)=l(1,1),l(1,0)=l(0,1)(参考南瓜书对公式1.2解析),则
l
(
0
,
0
)
+
l
(
0
,
1
)
=
l
(
1
,
1
)
+
l
(
1
,
0
)
l(0,0)+l(0,1)=l(1,1)+l(1,0)
l(0,0)+l(0,1)=l(1,1)+l(1,0),设=A,则
l
(
h
(
x
)
=
f
(
x
)
)
+
l
(
h
(
x
)
≠
f
(
x
)
)
=
A
l(h(x)=f(x))+l(h(x)≠f(x))=A
l(h(x)=f(x))+l(h(x)=f(x))=A,得证。
然后,证明No Free Lunch定理: