《learning from data》读书笔记---第二章: Training versus Testing

本文是《learning from data》第二章的学习笔记,主要探讨了模型的泛化能力与训练性能之间的关系,包括理论泛化、有效假设数量、VC维数、泛化误差边界、样本复杂度和模型复杂度的权衡。通过分析,揭示了在训练和测试中如何平衡模型的复杂度以达到更好的泛化效果。
摘要由CSDN通过智能技术生成

chapter2 Training versus Testing 

学习资料与考试题目区别

2.1 Theory of Generalization 

Eout反映了模型的泛化能力,即模型对未知数据的预测能力

Ein反映了在已知训练集的训练的成效( training performance)

Generalization error

    

定义a tolerance level  δ = ,得到ε = 

如果δ很小,那么就有很大的概率,即  Ein - ε≤ Eout  ≤ Ein + ε,对于不等式左边告诉我们要选择最好的h,h∈H来作为g,因为如果Ein很大,Eout也不会很小;不等式右边在M有限时能保证Eout  ≈ Ein,但在实际生产中M一般是无限的,不能保证Eout  ≈ Ein.

解决办法:需要用将无限的M换成有限的

之前不等式中M的的缩放:,将所有的时间看作独立事件,但实际上,这些事件可能由重叠,在一个典型的模型中,很多的假设都是很相似的(very similar)

2.1.1 Effective Number of Hypotheses 

growth function:有效假设的个数( the effective number of hypotheses),用来替代无限的M

以 binary target functions 为例:

 对于有限的数据x1, ... ,xN 属于X(无限),有假设h ,h∈H 我们可以得到一个N元组  h(x1), ... ,h(xN) (值为±1). 这样一个元组被称为dichotomy,因为它把 x1, · · · , XN 分成了两组,一组中点的函数值为-1,另一组为+1.每一个h都能在 x1, · · · , XN 上产生一个dichotomy ,但是两个不同的h可能产生相同的dichotomy if they happen to give the same pattern of ±1 's on this particular sample. 

mH ( N):是H集合中所有假设函数能在N个数据点上产生的最多的 dichotomies的数量.binary target functions 的If 如果H在x1, · · · , XN上能产生所有可能的dichotomies,我们就说H可以shatter x1, · · · , XN,这表明H is as diverse as can be on this particular sample. 

具体mH ( N)的值求解例子: 如果H is a 2-d perceptron,mH ( 3) = 8.图a中的三个点无法被shatter,但是图b中的三个点可以被shatter,产生8个 dichotomies,因为mH( N) 的定义是能产生dichotomies的最大值,所以mH(3) = 8 .对于图c中的4个点,可以证明无法被shatter,所有可能的16个dichotomies 中只能产生14个dichotomies,图c中的2个dichotomies 是无法产生的,因此mH(4) = 14.

 当然我们可能求解出所有假设集合的mH ( N)的值,因为mH(N) 本身是为了替代M,所以我们可以不求出mH(N)具体的值,而是用mH(N)的upper bound来进一步替代M.

break point for H: If k is a break point, then mH(k) < 2^k. 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值