林轩田机器学习基石笔记(第16节)——概率论与机器学习建立连接

抽样与机器学习的对应关系
  • 我们不知道罐子中橘色弹珠的数量比例,对应在机器学习中就是我们不知道在hypothesis中哪个h(x) 是我们要找的
  • 弹珠表示x
  • 橘色的弹珠代表 h(x)f(x) h ( x ) ≠ f ( x )
  • 绿色的弹珠代表 h(x)=f(x) h ( x ) = f ( x )
  • 抽样得到的橘色弹珠的比例对应机器学习中对应 h(x)f(x) h ( x ) ≠ f ( x ) 的几率

通过下图可以比较直观的看出:
这里写图片描述

现在引入两个值 Eout(h) E o u t ( h ) Ein(h) E i n ( h ) 对应抽样中的 μ 和 ν (其中 μ 代表真实的橘色弹珠比例,v代表抽样时橘色弹珠的比例)
  • Eout(h) E o u t ( h ) 代表实际上 h(x)f(x) h ( x ) ≠ f ( x ) 的比例,未知
  • Ein(h) E i n ( h ) 代表训练样本中 h(x)f(x) h ( x ) ≠ f ( x ) 的比例,已知
  • 最后用已知的 Ein(h) E i n ( h ) 推论未知的 Eout(h) E o u t ( h )

如下图:
这里写图片描述

Eout(h) E o u t ( h ) Ein(h) E i n ( h ) 代入到霍夫丁不等式中得到:

P[|vμ|>ϵ]2exp(2ϵ2N) P [ | v − μ | > ϵ ] ≤ 2 e x p ( − 2 ϵ 2 N )

P[|Ein(h)Eout(h)|>ϵ]2exp(2ϵ2N) P [ | E i n ( h ) − E o u t ( h ) | > ϵ ] ≤ 2 e x p ( − 2 ϵ 2 N )

在上一节我说,我们不需要关心 μ 是多少,所以在这里我们也不关心 Eout(h) E o u t ( h ) 是多少,也不需要关心P是多少。

现在我们得到重要结论:根据霍夫丁不等式,我们可以由 Ein(h) E i n ( h ) 推论 Eout(h) E o u t ( h ) ,即 Eout(h)Eout(h) E o u t ( h ) ≈ E o u t ( h )

Ein(h) E i n ( h ) 很小,即 h(x)f(x) h ( x ) ≠ f ( x ) Ein(h) E i n ( h ) 中出现很少,那么说明在 Eout(h) E o u t ( h ) 中也会很少犯错。

Ein(h) E i n ( h ) 依然还不是最优解

单个 h 的情况下,当N足够大的时候也会有 Eout(h)Eout(h) E o u t ( h ) ≈ E o u t ( h ) ,但这并不代表该 h 就是我们想要的 h 使得 h=g h = g gf g ≈ f

因为我们知道hypothesis中有很多的 h ,我们不能保证手上的这条 h 就是最好的那条,所以在以后的课程中我们还要介绍如何才能从hypothesis中选出最优的 h


===========================懵逼分割线===========================

欢迎大家加入Q群讨论:463255841

===========================懵逼分割线===========================

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值