chapter2 Training versus Testing
学习资料与考试题目区别
2.1 Theory of Generalization
Eout反映了模型的泛化能力,即模型对未知数据的预测能力
Ein反映了在已知训练集的训练的成效( training performance)
Generalization error
定义a tolerance level δ = ,得到ε =
如果δ很小,那么就有很大的概率,即 Ein - ε≤ Eout ≤ Ein + ε,对于不等式左边告诉我们要选择最好的h,h∈H来作为g,因为如果Ein很大,Eout也不会很小;不等式右边在M有限时能保证Eout ≈ Ein,但在实际生产中M一般是无限的,不能保证Eout ≈ Ein.
解决办法:需要用将无限的M换成有限的
之前不等式中M的的缩放:,将所有的时间看作独立事件,但实际上,这些事件可能由重叠,在一个典型的模型中,很多的假设都是很相似的(very similar)
2.1.1 Effective Number of Hypotheses
growth function:有效假设的个数( the effective number of hypotheses),用来替代无限的M
以 binary target functions 为例:
对于有限的数据x1, ... ,xN 属于X(无限),有假设h ,h∈H 我们可以得到一个N元组 h(x1), ... ,h(xN) (值为±1). 这样一个元组被称为dichotomy,因为它把 x1, · · · , XN 分成了两组,一组中点的函数值为-1,另一组为+1.每一个h都能在 x1, · · · , XN 上产生一个dichotomy ,但是两个不同的h可能产生相同的dichotomy if they happen to give the same pattern of ±1 's on this particular sample.
mH ( N):是H集合中所有假设函数能在N个数据点上产生的最多的 dichotomies的数量.binary target functions 的If 如果H在x1, · · · , XN上能产生所有可能的dichotomies,我们就说H可以shatter x1, · · · , XN,这表明H is as diverse as can be on this particular sample.
具体mH ( N)的值求解例子: 如果H is a 2-d perceptron,mH ( 3) = 8.图a中的三个点无法被shatter,但是图b中的三个点可以被shatter,产生8个 dichotomies,因为mH( N) 的定义是能产生dichotomies的最大值,所以mH(3) = 8 .对于图c中的4个点,可以证明无法被shatter,所有可能的16个dichotomies 中只能产生14个dichotomies,图c中的2个dichotomies 是无法产生的,因此mH(4) = 14.
当然我们可能求解出所有假设集合的mH ( N)的值,因为mH(N) 本身是为了替代M,所以我们可以不求出mH(N)具体的值,而是用mH(N)的upper bound来进一步替代M.
break point for H: If k is a break point, then mH(k) < 2^k.