《learning from data》读书笔记---第二章: Training versus Testing

最新推荐文章于 2021-06-15 22:27:02 发布

xiaodidadada

最新推荐文章于 2021-06-15 22:27:02 发布

阅读量490

点赞数 3

本文链接：https://blog.csdn.net/xiaodidadada/article/details/94738374

版权

本文是《learning from data》第二章的学习笔记，主要探讨了模型的泛化能力与训练性能之间的关系，包括理论泛化、有效假设数量、VC维数、泛化误差边界、样本复杂度和模型复杂度的权衡。通过分析，揭示了在训练和测试中如何平衡模型的复杂度以达到更好的泛化效果。

摘要由CSDN通过智能技术生成

chapter2 Training versus Testing

学习资料与考试题目区别

2.1 Theory of Generalization

Eout反映了模型的泛化能力，即模型对未知数据的预测能力

Ein反映了在已知训练集的训练的成效（ training performance）

Generalization error

定义a tolerance level δ = ,得到ε =

如果δ很小,那么就有很大的概率,即 Ein - ε≤ Eout ≤ Ein + ε,对于不等式左边告诉我们要选择最好的h,h∈H来作为g,因为如果Ein很大,Eout也不会很小;不等式右边在M有限时能保证Eout ≈ Ein,但在实际生产中M一般是无限的,不能保证Eout ≈ Ein.

解决办法:需要用将无限的M换成有限的

之前不等式中M的的缩放:,将所有的时间看作独立事件,但实际上,这些事件可能由重叠,在一个典型的模型中,很多的假设都是很相似的(very similar)

2.1.1 Effective Number of Hypotheses

growth function:有效假设的个数( the effective number of hypotheses),用来替代无限的M

以 binary target functions 为例:

对于有限的数据x1, ... ,xN 属于X(无限),有假设h ,h∈H 我们可以得到一个N元组 h(x1), ... ,h(xN) (值为±1). 这样一个元组被称为dichotomy,因为它把 x1, · · · , XN 分成了两组,一组中点的函数值为-1,另一组为+1.每一个h都能在 x1, · · · , XN 上产生一个dichotomy ,但是两个不同的h可能产生相同的dichotomy if they happen to give the same pattern of ±1 's on this particular sample.

mH ( N):是H集合中所有假设函数能在N个数据点上产生的最多的 dichotomies的数量.binary target functions 的If 如果H在x1, · · · , XN上能产生所有可能的dichotomies,我们就说H可以shatter x1, · · · , XN,这表明H is as diverse as can be on this particular sample.

具体mH ( N)的值求解例子: 如果H is a 2-d perceptron,mH ( 3) = 8.图a中的三个点无法被shatter,但是图b中的三个点可以被shatter,产生8个 dichotomies,因为mH( N) 的定义是能产生dichotomies的最大值,所以mH(3) = 8 .对于图c中的4个点,可以证明无法被shatter,所有可能的16个dichotomies 中只能产生14个dichotomies,图c中的2个dichotomies 是无法产生的,因此mH(4) = 14.