机器学习基石---Why Can Machines Learn(Part5)

  Part4主要介绍VC维概念。如果Hypotheses set的VC Dimension是有限的,且有足够多N的资料,并且演算法能够找到一个hypotheses使得 Ein0 ,那么机器学习可行。Part5考虑存在noise时,上述的说法能否成立,并且介绍Error的相关内容。

1 Noise

  数据集有Noise的情况下,VC维还可以用吗?还是从直观上解释,不做具体数学证明。那么所谓的Noise到底是什么?
* y :人为因素,打错label
* y:同样特征的样本被标记分为不同类,比如同样条件用户,一个还款,一个未还
* X 本身记录错误
对于二分类问题,f是一个确定性模型,即给定 X ,会输出一个y,但是noise是一个随机发生的东西。比如统计课程中讲到回归,会把noise假设成正态分布。比如在 x 点时,由于nosie的影响,有0.7个概率 y=1 ,0.3概率 y=0 ,也就是说 y x有关(其实是和noise有关吧),那么每个点(x,y)出现的概率是$P(y|x)。数学上可以证明有noise的数据,VC维的理论依旧有效。具体不表,也不知晓。

2 Error

  Error的定义似乎不是很明确,我自己理解为 Ein Eout 中Error的衡量。我们的learning希望找到一个 Eout 很小的 g 。但是Eout的计算方式,或者说预测值和真实值之间的误差可以有不同的定义,我们把这些误差看成成本,希望 g 能够使得总成本最低。
  之前的二分类问题中,误差是这样定义的:

error={1h(xn)f(xn)0h(xn)=f(xn)

这样的误差定义方式是只要判错,误差就为1。那么对于数量为 N 的资料,Ein=1NNn=1error(h,xn,yn)。这种误差衡量的方式称为”pointwise measure”,即对每个点都记录误差。这个 Ein 也称为成本函数、损失函数,最终目的是找到一个合适的演算法使得成本函数最小。
  误差的定义还有其他的类型,如在回归中常用的平方差 (y^y)2 。实际应用中,先根据问题选择合适的误差衡量方式。把 h 作用与D中所有样本的error加和作为cost function,也就是 Ein ,设计合适的演算法,找到cost function最小时候的 h 做为g

Summary

  后面讲了些代价敏感矩阵之类的,不多提。总之有noise时候也可以learning,那么定义好error,合适的演算法就能够找到比较小的 Ein ,这时,learning就是可行的。
                                       2018-01-29 于杭州

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值