机器学习基石---How Can Machines Learn Better

最新推荐文章于 2019-01-05 12:48:17 发布

维格堂406小队

最新推荐文章于 2019-01-05 12:48:17 发布

阅读量276

点赞数

分类专栏： ★★★机器学习 # ★★台大机器学习

本文链接：https://blog.csdn.net/wendaomudong_l2d4/article/details/79352566

版权

★★★机器学习同时被 2 个专栏收录

62 篇文章 3 订阅

订阅专栏

★★台大机器学习

13 篇文章 0 订阅

订阅专栏

对Week12-Week16做简单的总结，不仔细看所有细节。大体内容：借由非线性分类模型引出Overfitting的问题，从而提出Regularization和Validation，以及机器学习中三个原则。

非线性分类模型

前面提到的分类模型都是基于线性的: $Xw^T$ ，那么非线性的是否可以有良好的分类能力呢。看下面一个例子：

这里写图片描述

对于上面的情况，右图的二次曲线(圆)显然能更好的分隔两类点。其实可以通过映射把原来线性不可分的点变为可分。具体如下：

这里写图片描述

原来的点 $(x_1,x_2)$ 变换为 $(z_1,z_2)$ ，其中 $z_1=x_1^2,z_2=x_2^2$ ，这样就可以找到一条直线，完美的划分两类点。映射可以理解为 $\phi \left( x \right) = \left( {1,{x_1},{x_2},{x_1^2},{x_1}{x_2},{x_2^2}} \right)$ ，有的项系数为0而已。

非线性模型的代价

此处特指多项式变换，上一节发现做了多项式变换，分类性能变好，同时带来参数的增加。那么如果 $d$ 维向量 $x$ 做 $Q$ 次多项式变换：

ϕ (x) = (\begin{array}{l} 1, \\ x_{1}, x_{2}, \dots, x_{d}, \\ x_{1}^{2}, x_{1} x_{2}, x_{2}^{2}, \dots, x_{d}^{2}, \\ x_{1}^{Q}, x_{1}^{Q - 1} x_{2}, \dots, x_{d}^{Q} \end{array})

$\phi \left( x \right) = \left( \begin{array}{l} 1,\\ {x_1},{x_2}, \ldots ,{x_d},\\ x_1^2,{x_1}{x_2},x_2^2, \ldots ,x{}_d^2,\\ x_1^Q,x_1^{Q - 1}{x_2}, \ldots ,x{}_d^Q \end{array} \right)$
不考虑有的参数系数为0的情况，

1+d 1 + d $1+d$ 维向量变换后为

1+d¯=1+CQQ+d 1 + d ¯ = 1 + C Q + d Q $1+{\bar d}=1 + C_{Q + d}^Q$ ,复杂度有

O(d) O ( d ) $O(d)$ 变为

O(Qd) O ( Q d ) $O(Q^d)$
显然通过多项式变换参数变多了，那么参数多对模型本身有什么影响呢？
1. 计算复杂度变大，需要储存的空间增大
参数增多，变换后数据的维度变大，增加计算复杂度，增大存储空间
2. 模型复杂变大
之前VC维中讲到线性分类模型的

dvc≈freedom degree≈1+d¯ d v c ≈ f r e e d o m d e g r e e ≈ 1 + d ¯ $d_{vc} \approx freedom \space degree \approx 1+{\bar d}$ ，由直接的结论可知，如果

Q Q $Q$ 很大，

d_{v c}

$d_{vc}$ 也会很大，容易得到很小的

Ein E i n $E_{in}$ ，但是会造成

|Ein−Eout| | E i n − E o u t | $|E_{in}-E_{out}|$ 变大，模型的泛化能力变差。

这里写图片描述

过拟合

$E_{in}$ 很小， $E_{out}$ 很大即为过拟合，也就是训练集表现良好，测试集反之。产生overfitting的原因大概有四种：data size N、stochastic noise、deterministic noise和excessive power，具体如下。

Data Size

考虑下面两个回归拟合问题：

$f1$ 为10阶多项式+noise构成，左图中蓝色曲线为目标函数，离散的圆圈数据点
$f2$ 为50阶多项式构成，右图中蓝色曲线为目标函数，离散的圆圈数据点，由于没有noise，点都在线上

这里写图片描述

现在有两个学习模型，一个是2阶，一个是10阶多项式，分别对上述两种情况建模分析，两个学习模型的效果如下：

这里写图片描述

对于 $f1$ ，2阶多项式的学习模型 $E_{in}$ , $E_{out}$ 相差小，10阶多项式模型相差大，出现过拟合情况。
对于 $f2$ ，10阶多项式学习模型 $E_{in}$ , $E_{out}$ 相差大，仍然出现过拟合情况。
为什么低阶的多项式拟合的反而更好？先看下两个模型的学习曲线：

这里写图片描述

可知，数据量 $N$ 不大的时候，2阶多项式泛化能力更强。

Noise

上节分析出样本数量较少会造成overfitting，那么噪声和复杂度呢？

这里写图片描述

上图中红色越深表示overfitting越高，蓝色越深overfitting越低。固定模型复杂度， $N$ 越大， ${\sigma ^2}$ 越小，越不容易overfitting。固定 ${\sigma ^2}$ ，模型复杂度越高， $N$ 越小，越容易发生overfitting。发现noise的 ${\sigma ^2}$ 对overfitting影响很大，把noise称为stochastic noise。同时模型复杂度的影响称为deterministic noise。总结导致overfitting的因素：

data size N ↓
stochastic noise ${\sigma ^2}$ ↑
deterministic noise $Q_f$ ↑
excessive power(VC维过大) ↑

Dealing With Overfitting

处理overfitting问题主要有以下几种方式：

start from simple model
data cleaning/pruning
data hinting
regularization
validataion
前三种更像是数据的预处理，data cleaning/pruning就是对训练数据集里label明显错误的样本进行修正（data cleaning），或者对错误的样本看成是noise，进行剔除（data pruning）。data cleaning/pruning关键在于如何准确寻找label错误的点或者是noise的点，而且如果这些点相比训练样本N很小的话，这种处理效果不太明显。
data hinting是针对N不够大的情况，如果没有办法获得更多的训练集，那么data hinting就可以对已知的样本进行简单的处理、变换，从而获得更多的样本。举个例子，数字分类问题，可以对已知的数字图片进行轻微的平移或者旋转，从而让N丰富起来，达到扩大训练集的目的。这种额外获得的例子称之为virtual examples。但是要注意一点的就是，新获取的virtual examples可能不再是iid某个distribution。所以新构建的virtual examples要尽量合理，且是独立同分布的。

Regularization

regularization正则化相当于在模型复杂度和 $E_{in}$ 做个平衡，通过构造惩罚项实现。常用的如岭回归中 $L_2$ 正则化，lasso回归中 $L_1$ 正则化。具体不多说，林老师的课程笔记可以参看红色石头的笔记。

Validataion

验证常用的有留一折验证和V-折交叉验证，重原来的训练集中抽取部分数据作为验证数据集。通过模型在验证集上的表现挑选合适的 g <script type="math/tex" id="MathJax-Element-40">g</script>。参看红色石头的笔记。

Three Learning Principles

Occam’s Razor

奥卡姆剃刀意为“如无必要，勿增实体”，即应该选择尽可能简单的模型。

Sampling Bias

抽样误差将可能小，是指训练数据和验证数据要服从同一个分布。

Data Snooping

在机器学习过程中，避免“偷窥数据”非常重要，但实际上，完全避免也很困难。实际操作中，有一些方法可以帮助我们尽量避免偷窥数据。第一个方法是“看不见”数据。就是说当我们在选择模型的时候，尽量用我们的经验和知识来做判断选择，而不是通过数据来选择。先选模型，再看数据。第二个方法是保持怀疑。就是说时刻保持对别人的论文或者研究成果保持警惕与怀疑，要通过自己的研究与测试来进行模型选择，这样才能得到比较正确的结论。

Summary

机器学习基石磨磨蹭蹭的终于算是看完，前面的课程看的还是比较认真，后面的马马虎虎吧。从VC维讲起，还是很难理解。如果考虑实战，工作中能直接应用，或许从接受度上讲还是很好的了。

维格堂406小队

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习基石---How Can Machines Learn Better

对Week12-Week16做简单的总结，不仔细看所有细节。大体内容：借由非线性分类模型引出Overfitting的问题，从而提出Regularization和Validation，以及机器学习中三个原则。非线性分类模型前面提到的分类模型都是基于线性的:XwTXwTXw^T，那么非线性的是否可以有良好的分类能力呢。看下面一个例子：对于上面的情况，右图的二次曲...
复制链接

扫一扫