1.6 泛化能力

本文深入探讨了机器学习中模型的泛化能力,从泛化误差的概念出发,阐述了如何通过泛化误差的上界来评估模型的预测性能。随着样本容量的增加,上界误差趋于减小;而假设空间的容量增大则可能导致泛化误差上界增加。通过Hoeffding不等式,推导出了泛化误差上界的数学公式,并讨论了在不同概率条件下模型泛化误差的界限。
摘要由CSDN通过智能技术生成
2022.09.4 李航老师《统计学习方法》: 一. 统计学习及监督学习概论
# 本文目的就是为学者简化学习内容,提取我认为的重点 把书读薄;

1.6 泛化能力

# 本文内容: 泛化误差的公式 和 推到过程
本文重点:泛化误差上界的推导过程

1.6.1 泛化误差

讲了啥是泛化误差

泛化误差就是学习到的模型对未知数据的预测能力。

  • 未知数据带到模型里的结果: f ^ \hat{f} f^
  • 每个模型,某个未知数据带入都有一个结果。哪个泛化能力最好?我们最终要看所有数据代入的风险函数哪个最好: R e x p ( f ^ ) R_{exp}(\hat{f}) Rexp(f^)

R e x p ( f ) = E p [ L ( Y , f ( x ) ) ] = ∫ X × Y L ( y , f ( x ) ) P ( x , y )   d x d y R_{exp}(f)=E_p[L(Y,f(x))]=\begin{matrix} \int_{X \times Y} L(y,f(x))P(x,y)\, \mathrm{ {d}x{d}y}\end{matrix} Rexp(f)=Ep[L(Y,f(x))]=X×YL(y,f(x))P(x,y)dxdy
1.3.2有讲到,这个是要所有数据的联合分布,如果知道那么就不需要预测了,直接查找就行

所以,那么如何比较泛化能力呢?


1.6.2 泛化误差的上界

通过上界误差的方法来比较两个学习方法的泛化能力。误差越大 肯定越不好。

  1. 性质1:当样本容量增加时,上界误差趋近于0;
样本容量越大,预测越准确,极限考虑,我们知道了所有数据,那么上界误差就是0了。
  1. 性质2:假设空间容量越大,模型就越难学,泛化误差上界就越大;
假设空间也就是满足样本的函数,越多,那么选择的难度就越大,就越难学习,错误几率就越高,泛化误差上界就越大。

1.6.3 泛化误差上界的数学公式

对二分类问题,当假设空间是有限个函数的集合F={f1,f2,⋯,fd}时,对任意一个函数 f ∈ F f∈F fF,至少以概率 1 − δ 1−δ 1δ ,0<δ<1, 使得以下不等式成立:
R ( f ) ≤ R ( f ) + ϵ ( d , N , δ ) R(f)≤R^(f)+ϵ(d,N,δ) R(f)R(f)+ϵ(d,N,δ)
其中,
ϵ ( d , N , δ ) = 1 2 N ( l o g d + l o g 1 δ ) ϵ(d,N,δ)=\sqrt{\frac{1}{2N}(logd+log\frac{1}{δ})} ϵ(d,N,δ)=2N1(logd+logδ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

羊老羊

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值