机器学习基石---How Can Machines Learn Better

  对Week12-Week16做简单的总结,不仔细看所有细节。大体内容:借由非线性分类模型引出Overfitting的问题,从而提出Regularization和Validation,以及机器学习中三个原则。

非线性分类模型

  前面提到的分类模型都是基于线性的: XwT X w T ,那么非线性的是否可以有良好的分类能力呢。看下面一个例子:

这里写图片描述

对于上面的情况,右图的二次曲线(圆)显然能更好的分隔两类点。其实可以通过映射把原来线性不可分的点变为可分。具体如下:

这里写图片描述

原来的点 (x1,x2) ( x 1 , x 2 ) 变换为 (z1,z2) ( z 1 , z 2 ) ,其中 z1=x21,z2=x22 z 1 = x 1 2 , z 2 = x 2 2 ,这样就可以找到一条直线,完美的划分两类点。映射可以理解为 ϕ(x)=(1,x1,x2,x21,x1x2,x22) ϕ ( x ) = ( 1 , x 1 , x 2 , x 1 2 , x 1 x 2 , x 2 2 ) ,有的项系数为0而已。

非线性模型的代价

  此处特指多项式变换,上一节发现做了多项式变换,分类性能变好,同时带来参数的增加。那么如果 d d 维向量x Q Q 次多项式变换:

ϕ(x)=(1,x1,x2,,xd,x12,x1x2,x22,,xd2,x1Q,x1Q1x2,,xdQ)

不考虑有的参数系数为0的情况, 1+d 1 + d 维向量变换后为 1+d¯=1+CQQ+d 1 + d ¯ = 1 + C Q + d Q ,复杂度有 O(d) O ( d ) 变为 O(Qd) O ( Q d )
显然通过多项式变换参数变多了,那么参数多对模型本身有什么影响呢?
1. 计算复杂度变大,需要储存的空间增大
参数增多,变换后数据的维度变大,增加计算复杂度,增大存储空间
2. 模型复杂变大
之前VC维中讲到线性分类模型的 dvcfreedom degree1+d¯ d v c ≈ f r e e d o m   d e g r e e ≈ 1 + d ¯ ,由直接的结论可知,如果 Q Q 很大,dvc也会很大,容易得到很小的 Ein E i n ,但是会造成 |EinEout| | E i n − E o u t | 变大,模型的泛化能力变差。

这里写图片描述

过拟合

   Ein E i n 很小, Eout E o u t 很大即为过拟合,也就是训练集表现良好,测试集反之。产生overfitting的原因大概有四种:data size N、stochastic noise、deterministic noise和excessive power,具体如下。

Data Size

  考虑下面两个回归拟合问题:

  • f1 f 1 为10阶多项式+noise构成,左图中蓝色曲线为目标函数,离散的圆圈数据点
  • f2 f 2 为50阶多项式构成,右图中蓝色曲线为目标函数,离散的圆圈数据点,由于没有noise,点都在线上

这里写图片描述

现在有两个学习模型,一个是2阶,一个是10阶多项式,分别对上述两种情况建模分析,两个学习模型的效果如下:

这里写图片描述

对于 f1 f 1 ,2阶多项式的学习模型 Ein E i n , Eout E o u t 相差小,10阶多项式模型相差大,出现过拟合情况。
对于 f2 f 2 ,10阶多项式学习模型 Ein E i n , Eout E o u t 相差大,仍然出现过拟合情况。
为什么低阶的多项式拟合的反而更好?先看下两个模型的学习曲线:

这里写图片描述

可知,数据量 N N 不大的时候,2阶多项式泛化能力更强。

Noise

  上节分析出样本数量较少会造成overfitting,那么噪声和复杂度呢?

这里写图片描述

上图中红色越深表示overfitting越高,蓝色越深overfitting越低。固定模型复杂度,N越大, σ2 σ 2 越小,越不容易overfitting。固定 σ2 σ 2 ,模型复杂度越高, N N 越小,越容易发生overfitting。发现noise的σ2对overfitting影响很大,把noise称为stochastic noise。同时模型复杂度的影响称为deterministic noise。总结导致overfitting的因素:

  • data size N ↓
  • stochastic noise σ2 σ 2
  • deterministic noise Qf Q f
  • excessive power(VC维过大) ↑

Dealing With Overfitting

  处理overfitting问题主要有以下几种方式:

  • start from simple model
  • data cleaning/pruning
  • data hinting
  • regularization
  • validataion
    前三种更像是数据的预处理,data cleaning/pruning就是对训练数据集里label明显错误的样本进行修正(data cleaning),或者对错误的样本看成是noise,进行剔除(data pruning)。data cleaning/pruning关键在于如何准确寻找label错误的点或者是noise的点,而且如果这些点相比训练样本N很小的话,这种处理效果不太明显。
    data hinting是针对N不够大的情况,如果没有办法获得更多的训练集,那么data hinting就可以对已知的样本进行简单的处理、变换,从而获得更多的样本。举个例子,数字分类问题,可以对已知的数字图片进行轻微的平移或者旋转,从而让N丰富起来,达到扩大训练集的目的。这种额外获得的例子称之为virtual examples。但是要注意一点的就是,新获取的virtual examples可能不再是iid某个distribution。所以新构建的virtual examples要尽量合理,且是独立同分布的。

Regularization

  regularization正则化相当于在模型复杂度和 Ein E i n 做个平衡,通过构造惩罚项实现。常用的如岭回归中 L2 L 2 正则化,lasso回归中 L1 L 1 正则化。具体不多说,林老师的课程笔记可以参看红色石头的笔记

Validataion

  验证常用的有留一折验证和V-折交叉验证,重原来的训练集中抽取部分数据作为验证数据集。通过模型在验证集上的表现挑选合适的 g g <script type="math/tex" id="MathJax-Element-40">g</script>。参看红色石头的笔记

Three Learning Principles

Occam’s Razor

奥卡姆剃刀意为“如无必要,勿增实体”,即应该选择尽可能简单的模型。

Sampling Bias

抽样误差将可能小,是指训练数据和验证数据要服从同一个分布。

Data Snooping

在机器学习过程中,避免“偷窥数据”非常重要,但实际上,完全避免也很困难。实际操作中,有一些方法可以帮助我们尽量避免偷窥数据。第一个方法是“看不见”数据。就是说当我们在选择模型的时候,尽量用我们的经验和知识来做判断选择,而不是通过数据来选择。先选模型,再看数据。第二个方法是保持怀疑。就是说时刻保持对别人的论文或者研究成果保持警惕与怀疑,要通过自己的研究与测试来进行模型选择,这样才能得到比较正确的结论。

Summary

机器学习基石磨磨蹭蹭的终于算是看完,前面的课程看的还是比较认真,后面的马马虎虎吧。从VC维讲起,还是很难理解。如果考虑实战,工作中能直接应用,或许从接受度上讲还是很好的了。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值