Hazard of Overfitting(过拟合的危害)
回顾
What is Overfitting?
什么是过拟合?
1.假设输入空间为一维的,共有五个样本点的回归问题
2.其目标函数为二维函数
3.其标签集有噪声
4.使用四项多项式转换并且结合线性回归求解权重向量
5.得出的唯一权重向量解
如下图:
目标函数与四次多项式的拟合图:
结果:
VC维与错误率关系图如下:
分析如下图:
vc维>时,VC维增大,减小,增大,此时为过拟合,即在训练集上拟合的很好,但是在测试集上错误率非常大,泛化能力差。解决方法:从低到高一次提高多项式次数,增大VC维,从而达到拟合的效果。
泛化能力差:
过拟合图:
将机器学习类比为开车:
上图中3,4,5行为导致2行的因素,即VC维和噪声以及样本大小都对过拟合有影响。
The Role of Noise and Data Size
噪声和数据集大小的角色
我们设计了两个简单的实验便于我们更好地理解和掌握产生过拟合的因素:一个10次多项式,一个50次多项式,前者有噪声,后者无噪声,如下图:
接着,分别使用二次时和10次式假设空间来作为学习模型对上图中的数据集进行学习,如下图:
学习得到的最优假设如上图红色曲线所示,其中绿色为2次模型得到的假设函数,红色为10次学习模型得到的假设函数。继续分析上图,显然:二次模型的大于10次模型的,但是二次模型的远远小于10次模型的,说明在10含函数生成的训练数据集上,使用二次函数模型会得到更好地。
可以看到二次模型与目标函数的次数有很大的差距反而比10次多项式模型的学习效果更佳好,这要从学习曲线来解释:
从上面学习曲线可以看出:当数据量很少的时候,2次模型的比10次模型的大很多,但是2次模型的和的差距要比10次模型的和的差距要小得多。因此,在样本点不多的时候,低次模型的泛华能力更强,即在上图的灰色区域,高次模型会产生过拟合。
Deterministic Noise
确定性噪声
由上图可知:数据样本由目标函数产生的部分和噪声部分组成,若噪声服从高斯分布(高斯噪声),其强度为,目标函数使用复杂度表示,即次多项式。
不难看出过拟合和噪声强度、目标函数的复杂度和训练数据量N都有着密切的关系,下面通过控制变量法来观察每个参数对过拟合的影响,分为和。
为例便于观察,我们编写程序完成对应的实验并绘制成图像。与上一节相同,分别使用2次模型和10次模型进行测试,错误率满足:,用来作为过拟合的衡量。分别固定复杂度和噪声得到:
左图:固定算法强度,噪声强度与数据量N对过拟合的影响,图中深红色表示过拟合程度高,蓝色表示过拟合程度低,可知,噪声强度越大,样本数据量越小时,过拟合越严重。
右图:固定噪声强度,算法强度与样本数据量N对过拟合的影响,可知,算法强度越大数据量越小时过拟合越严重,图中坐下角。与右图略微不同,即在算法强度<=10且数据量很小的三角形区域,造成该现象的原因是此处选用的两个模型是2次模型和10次模型,而在低于10次的目标函数中使用10次多项式模型学习,即造成过度的VC维使用,有关算法强度产生也相当于产生了噪声,称为确定性噪声。
总结:造成严重过拟的原因:数据量少,随机噪声(高斯噪声)高,确定性噪声高,过度VC维。
确定性噪声的解释:
上图中蓝色表示目标函数,红色表示二次模型曲线,其中蓝色曲线的弯曲形状是使用2次模型不能模仿的,因此就相当于噪声。