机器学习基石(林軒田)笔记之十三

Hazard of Overfitting(过拟合的危害)

回顾

上一讲中我们学习了(非线性转换)

What is Overfitting?

什么是过拟合?

1.假设输入空间为一维的,共有五个样本点的回归问题

2.其目标函数为二维函数

3.其标签集有噪声

4.使用四项多项式转换并且结合线性回归求解权重向量

5.得出的唯一权重向量解

如下图:


目标函数与四次多项式的拟合图:


结果:


VC维与错误率关系图如下:


分析如下图:


vc维>时,VC维增大,减小,增大,此时为过拟合,即在训练集上拟合的很好,但是在测试集上错误率非常大,泛化能力差。解决方法:从低到高一次提高多项式次数,增大VC维,从而达到拟合的效果。

泛化能力差:


过拟合图:


将机器学习类比为开车:


上图中3,4,5行为导致2行的因素,即VC维和噪声以及样本大小都对过拟合有影响。


The Role of Noise and Data Size

噪声和数据集大小的角色

我们设计了两个简单的实验便于我们更好地理解和掌握产生过拟合的因素:一个10次多项式,一个50次多项式,前者有噪声,后者无噪声,如下图:


接着,分别使用二次时和10次式假设空间来作为学习模型对上图中的数据集进行学习,如下图:


学习得到的最优假设如上图红色曲线所示,其中绿色为2次模型得到的假设函数,红色为10次学习模型得到的假设函数。继续分析上图,显然:二次模型的大于10次模型的,但是二次模型的远远小于10次模型的,说明在10含函数生成的训练数据集上,使用二次函数模型会得到更好地


可以看到二次模型与目标函数的次数有很大的差距反而比10次多项式模型的学习效果更佳好,这要从学习曲线来解释:



从上面学习曲线可以看出:当数据量很少的时候,2次模型的比10次模型的大很多,但是2次模型的的差距要比10次模型的的差距要小得多。因此,在样本点不多的时候,低次模型的泛华能力更强,即在上图的灰色区域,高次模型会产生过拟合。


Deterministic Noise

确定性噪声


由上图可知:数据样本由目标函数产生的部分和噪声部分组成,若噪声服从高斯分布(高斯噪声),其强度为,目标函数使用复杂度表示,即次多项式。

不难看出过拟合和噪声强度、目标函数的复杂度和训练数据量N都有着密切的关系,下面通过控制变量法来观察每个参数对过拟合的影响,分为

为例便于观察,我们编写程序完成对应的实验并绘制成图像。与上一节相同,分别使用2次模型和10次模型进行测试,错误率满足:,用来作为过拟合的衡量。分别固定复杂度和噪声得到:


左图:固定算法强度,噪声强度与数据量N对过拟合的影响,图中深红色表示过拟合程度高,蓝色表示过拟合程度低,可知,噪声强度越大,样本数据量越小时,过拟合越严重。

右图:固定噪声强度,算法强度与样本数据量N对过拟合的影响,可知,算法强度越大数据量越小时过拟合越严重,图中坐下角。与右图略微不同,即在算法强度<=10且数据量很小的三角形区域,造成该现象的原因是此处选用的两个模型是2次模型和10次模型,而在低于10次的目标函数中使用10次多项式模型学习,即造成过度的VC维使用,有关算法强度产生也相当于产生了噪声,称为确定性噪声。

总结:造成严重过拟的原因:数据量少,随机噪声(高斯噪声)高,确定性噪声高,过度VC维。

确定性噪声的解释:


上图中蓝色表示目标函数,红色表示二次模型曲线,其中蓝色曲线的弯曲形状是使用2次模型不能模仿的,因此就相当于噪声。


Dealing with Overfitting

过拟合的处理
在此之前我们提出了产生过拟合的三种因素,这一节我们讲解如何避免这些因素造成过拟合,下面以车祸来类比学习过程:

本节主要介绍数据清理和数据提示,正则化和确认在后面课程中介绍。
下面以书写体识别为例来介绍数据清理和数据提示:

上图中手写体1用o表示,手写体5用×来表示,其中数字1中存在一个数字5的样本点(左上角),该样本点对应的原始数字也很难分辨为数字5,类似这种的样本点离别的类别的距离很近但是离正确的类别很远,这样的样本点可以作为噪声或者是离群点。
处理上述情况的两种方式:
1.纠正其标签,即数据清理
2.删除错误样本,即数据剪出
处理的过程虽然很简单,但是发现噪声点的过程却很困难。
数据提示:

将上图中的手写体数据集修改可以产生更多的手写体数据集,从而达到增加数据量N 的目的。如将以上数据集旋转,平移,但是旋转和平移的角度不要太大,数字9旋转180度就变成了数字6,还要注意此种方式产生的虚拟样本不再符合独立同分布,因此产生的虚拟样本和实际样本差距不宜太大。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值