机器学习基石---Why Can Machines Learn(Part5)

最新推荐文章于 2018-07-16 12:43:52 发布

维格堂406小队

最新推荐文章于 2018-07-16 12:43:52 发布

阅读量372

点赞数

分类专栏： ★★★机器学习 # ★★台大机器学习

本文链接：https://blog.csdn.net/wendaomudong_l2d4/article/details/79207836

版权

★★★机器学习同时被 2 个专栏收录

62 篇文章 3 订阅

订阅专栏

★★台大机器学习

13 篇文章 0 订阅

订阅专栏

Part4主要介绍VC维概念。如果Hypotheses set的VC Dimension是有限的，且有足够多N的资料，并且演算法能够找到一个hypotheses使得 $E_{in} \approx 0$ ，那么机器学习可行。Part5考虑存在noise时，上述的说法能否成立，并且介绍Error的相关内容。

1 Noise

数据集有Noise的情况下，VC维还可以用吗？还是从直观上解释，不做具体数学证明。那么所谓的Noise到底是什么？
* $y$ :人为因素，打错label
* $y$ :同样特征的样本被标记分为不同类，比如同样条件用户，一个还款，一个未还
* $X$ 本身记录错误
对于二分类问题， $f$ 是一个确定性模型，即给定 $X$ ，会输出一个 $y$ ，但是noise是一个随机发生的东西。比如统计课程中讲到回归，会把noise假设成正态分布。比如在 ${\rm{x}}$ 点时，由于nosie的影响，有0.7个概率 $y=1$ ，0.3概率 $y=0$ ，也就是说 $y$ 于 $x$ 有关(其实是和noise有关吧)，那么每个点(x,y)出现的概率是$P(y|x)。数学上可以证明有noise的数据，VC维的理论依旧有效。具体不表，也不知晓。

2 Error

Error的定义似乎不是很明确，我自己理解为 $E_{in}$ 和 $E_{out}$ 中Error的衡量。我们的learning希望找到一个 $E_{out}$ 很小的 $g$ 。但是 $E_{out}$ 的计算方式，或者说预测值和真实值之间的误差可以有不同的定义，我们把这些误差看成成本，希望 $g$ 能够使得总成本最低。
之前的二分类问题中，误差是这样定义的：

e r r o r = {1 h (x n) \neq f (x n) 0 h (x n) = f (x n)

$error = \left\{ {\begin{array}{*{20}{c}} {1\;\;h\left( {{{\rm{x}}_n}} \right) \ne f\left( {{{\rm{x}}_n}} \right)}\\ {0\;\;h\left( {{{\rm{x}}_n}} \right) = f\left( {{{\rm{x}}_n}} \right)} \end{array}} \right.$

这样的误差定义方式是只要判错，误差就为1。那么对于数量为 $N$ 的资料， $E_{in}=\frac{1}{N}\sum\nolimits_{n = 1}^N {error\left( {h,{{\rm{x}}_n},{{\rm{y}}_n}} \right)}$ 。这种误差衡量的方式称为”pointwise measure”，即对每个点都记录误差。这个 $E_{in}$ 也称为成本函数、损失函数，最终目的是找到一个合适的演算法使得成本函数最小。
误差的定义还有其他的类型，如在回归中常用的平方差 ${\left( {\hat y - y} \right)^2}$ 。实际应用中，先根据问题选择合适的误差衡量方式。把 $h$ 作用与 $D$ 中所有样本的error加和作为cost function，也就是 $E_{in}$ ，设计合适的演算法，找到cost function最小时候的 $h$ 做为 $g$ 。

Summary

后面讲了些代价敏感矩阵之类的,不多提。总之有noise时候也可以learning，那么定义好error，合适的演算法就能够找到比较小的 $E_{in}$ ，这时，learning就是可行的。
2018-01-29 于杭州

维格堂406小队

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习基石---Why Can Machines Learn(Part5)

Part4主要介绍VC维概念。如果Hypotheses set的VC Dimension是有限的，且有足够多N的资料，并且演算法能够找到一个hypotheses使得Ein≈0E_{in} \approx 0，那么机器学习可行。Part5考虑存在noise时，上述的说法能否成立，并且介绍Error的相关内容。 1 Noise 数据集有Noise的情况下，VC维还可以用吗？还是从直观上解释，不做具体
复制链接

扫一扫